会议专题

基于规则和统计相结合的方法处理甲骨文信息

分词和词性标注是计算机处理甲骨文信息的基础。在现阶段,建立起一个成熟的、带有词法语法标注信息的甲骨文语料库是极其困难的,这也给运用统计方法处理甲骨文信息带来了不便。本文介绍了甲骨文电子化的基本情况和甲骨文字典的建设情况;在此基础上,尝试运用统计、规则以及统计和规则相结合的方法进行甲骨文分词和词性标注工作。简单地说,统计和规则相结合的方法步骤如下:(1)结合甲骨文字库运用统计方法进行分词或词性标注;(2)消歧;(3)如果(2)中低于某一阈值则调用规则库进一步处理。实验表明,用规则和统计相结合的方法进行甲骨文分词和词性标注效果都要优于单纯的规则方法或统计方法,尤其是在语料库过于稀疏的情况下。文章的最后,简单探讨了如何利用标注的结果用规则的方法来完成语法分析。

甲骨文 自动分词 词性标注 计算机处理 语料库

蔡慧颖 江铭虎

清华大学中文系计算语言实验室 北京 100084

国内会议

第三届HNC与语言学研究学术研讨会

北京

中文

338-345

2005-12-21(万方平台首次上网日期,不代表论文的发表时间)