基于规则的中文语料库分词一致性处理研究
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.本文对150万汉字熟语料进行了统计分析;定义了语料库中分词结果不一致的主要结构类型;采用基于规则的策略检验校对相同语境下相同字串的分词一致性.对150万汉字语料库的封闭测试,正确率为86.94%.
分词 一致性测试 自动分词 中文信息处理 语料库
苗玺 郑家恒
山西大学计算机与信息技术学院,030006
国内会议
武汉
中文
1294-1299
2005-09-20(万方平台首次上网日期,不代表论文的发表时间)