从辞书数据建模到辞书辅助编纂
本文以词典数据库的建立和管理、以及词条结构定制为例,介绍辞书数据结构模式(XML Schema)在辞书辅助编纂系统中的应用。在辞书辅助编纂系统的任务流程中需要多部词典参与,词典是这个系统最基本的数据资源。文本形式的词典是一种用非结构化形式表现的、具有半结构化特征的语言数据。为了能够系统地组织并完整地描述词典中语言数据的表现形式和其中蕴涵的语言知识。我们在辞书数据结构模式(XML Schema)框架下,对词典文本进行词条结构标注,再把文本形式的词典转换成XML文档,在非关系型嵌入式数据库Berkeley_DB XML平台为几部现有词典建立了数据库,供辞书辅助编纂过程中用作参照。对于新编词典数据库,也要先在辞书数据结构模式的支持下定制词条结构,编纂系统会根据定制了的词条结构生成新编词典数据库的数据结构、生成管理和访问在编词典数据库的辅助数据表,同时还生成在前台供编者使用的编写操作界面、数据显示格式和数据保存格式。在编纂系统里,可以用同样的方法同时创建几部新的在编词典。各部在编词典数据库,连同已有的参照词典数据库,都在辞书数据结构模式的支持下统一管理,用统一的操作进行访问。
汉语辞书数据库 数据建模 词条结构模式 辞书编纂自动化 词典数据库
吴杰 傅爱平
中国社会科学院语言研究所 100732
国内会议
丽江
中文
352-359
2009-09-14(万方平台首次上网日期,不代表论文的发表时间)