基于规则和统计相结合的方法处理甲骨文信息

摘要：

分词和词性标注是计算机处理甲骨文信息的基础。在现阶段，建立起一个成熟的、带有词法语法标注信息的甲骨文语料库是极其困难的，这也给运用统计方法处理甲骨文信息带来了不便。本文介绍了甲骨文电子化的基本情况和甲骨文字典的建设情况；在此基础上，尝试运用统计、规则以及统计和规则相结合的方法进行甲骨文分词和词性标注工作。简单地说，统计和规则相结合的方法步骤如下：(1)结合甲骨文字库运用统计方法进行分词或词性标注；(2)消歧；(3)如果(2)中低于某一阈值则调用规则库进一步处理。实验表明，用规则和统计相结合的方法进行甲骨文分词和词性标注效果都要优于单纯的规则方法或统计方法，尤其是在语料库过于稀疏的情况下。文章的最后，简单探讨了如何利用标注的结果用规则的方法来完成语法分析。

关键词：甲骨文自动分词词性标注计算机处理语料库

作者: 蔡慧颖江铭虎

作者单位: 清华大学中文系计算语言实验室北京 100084

会议类型: 国内会议

会议名称: 第三届HNC与语言学研究学术研讨会

会议地点: 北京

会议语种:中文

页码: 338-345

在线出版日期: 2005-12-21（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于规则和统计相结合的方法处理甲骨文信息