会议专题

Berkeley DB XML在词典编纂中的应用

本文介绍我们在研制辞书辅助编纂系统的过程中,用数据库软件管理辞书内容和语料的实验与探讨。以往的辞书数字化工作大多是把词典做成二维表,再用关系型数据库来处理。我们选择用XML Schema作为辞书数据结构模式来为词典数据建模,用原生XML数据库Berkeley DB XML作为辞书数据的管理平台。XML的数据结构适合描述语文词典的结构形式,XML Schema的树形模式能够很好地体现词条结构的层次关系和管辖关系,可以方便地描述不定长内容的词条属性、不定量重复出现的词条属性和词条属性的嵌套关系。另外还可以根据词条描述的需要,动态地为XML Schema补充子树或者元素,只要不违背原有的树形结构规则,就不会影响以前标注过的词典数据的有效性。这些都是关系型数据模式不容易作到的。用Berkeley DB XML处理辞书数据,与传统的二维数据库相比,文档格式也更自然、灵活,存取更便利,有利于辞书数据的高效存储和快速访问。在Berkeley_DB XML上创建词典数据库之前,需要对辞书文本做预处理。我们先在XML Schema框架下,对已有辞书的文本做词条结构标注,经过验证,得到格式良好并有效的XML文档。然后建立在XML Schema约束下的、以词目为单位的辞书XML文档,再将文档以节点方式批量导入Berkeley DB的容器中,并同时根据使用方式设定多线程(进程)锁策略。辞书容器建立以后,根据词典编写过程中的各种编辑检索需求,还要针对XML文档元素设置相应的索引类型,编制适当的索引策略,以达到快速读写、高效访问的要求。在Berkeley_DB XML上为辞书辅助编纂系统建立的词典数据库,包括全部在编词典和参照词典,不同的词典在数据库容器里用命名空间加以区别。在Berkeley_DB XML上,词条检索任务是由XQuery解释器来完成的。为提高检索速度,需要对元素进行路径、节点和关键字的索引创立。BDB的事务子系统、锁子系统和日志子系统共同协调完成对多用户查询和单用户修改的多进程操作和数据库的数据保护。

汉语辞书数据库 辞书编纂自动化 Berkeley_DB XML 词典编纂 辞书数字化 词条检索

张弘 傅爱平

中国社会科学院语言研究所

国内会议

第七届(2009)两岸三院信息技术与应用交流研讨会

丽江

中文

364-368

2009-09-14(万方平台首次上网日期,不代表论文的发表时间)