会议专题

基于逆向最短路径和统计模型的中文词语粗分方法

作为计算机进行中文处理的基础和关键,词语粗分必须能提供少量甚至唯一的高准确度的词语切分结果.本文在引入了词语频率数据的扩展中文词典基础上,结合逆向最短路径、全切分和基于统计概率分词方法,对原有的计算模型进行了改进,实现了一种结合逆向最短路径和统计模型的中文词语粗切分方法.对大规模语料库的实验表明,在返回唯一结果时,该方法的切分正确率达到了99.73%,比以前最好切分方法的正确率提高了6%多,证明该方法是一种有效的、高准确率和实用的中文词语粗分方法.

词切分 逆向最短路径 统计模型 中文词语粗分 语料库

闫新庆 王巍 李文锋 陈定方

武汉理工大学智能制造与控制研究所,武汉,430063 河南平顶山高等师范专科学校,平顶山,河南,467000 武汉理工大学智能制造与控制研究所,武汉,430063;中国科学院计算技术研究所智能信息处理开放实验室,北京,100080

国内会议

第十一届中国人工智能学术年会

武汉

中文

348-352

2005-09-20(万方平台首次上网日期,不代表论文的发表时间)