会议专题

基于规则的汉语基本块自动分析器

本文提出了一种规则驱动的汉语基本块自动分析方法,它的主要分析资源是从大规模标注语料库和词汇关联知识库的交互作用中自动习得的融合内部词汇关联和外部语境限制约束知识的分层次、多粒度的基本块规则库.利用其中各条规则的置信度信息,可以有效地驱动汉语真实文本句子的多词语基本块的自动识别过程,同时完成歧义结构自动排歧。初步的实验结果表明,现有分析器可以在95%以上的开放测试语料上达到90%左右的F-measure值,同时又保留了约5%的在现有知识库条件下很难判断的复杂歧义结果供后续分析器选择使用,显示出较好的处理灵活性和有效性。

汉语基本块 自动分析器 标注语料库 规则驱动排歧 歧义结构 词汇关联知识库

周强

清华信息科学与技术国家实验室(筹),清华大学信息技术研究院语音与语言技术中心,北京,100084

国内会议

第七届中文信息处理国际会议

武汉

中文

137-142

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)