基于规则的汉语基本块自动分析器

摘要：

本文提出了一种规则驱动的汉语基本块自动分析方法,它的主要分析资源是从大规模标注语料库和词汇关联知识库的交互作用中自动习得的融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库.利用其中各条规则的置信度信息,可以有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,现有分析器可以在95％以上的开放测试语料上达到90％左右的F-measure值,同时又保留了约5％的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。

关键词：汉语基本块自动分析器标注语料库规则驱动排歧歧义结构词汇关联知识库

作者: 周强

作者单位: 清华信息科学与技术国家实验室(筹),清华大学信息技术研究院语音与语言技术中心,北京,100084

会议类型: 国内会议

会议名称: 第七届中文信息处理国际会议

会议地点: 武汉

会议语种:中文

页码: 137-142

在线出版日期: 2007-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于规则的汉语基本块自动分析器