会议专题

基于双字耦合度的中文分词交叉歧义处理方法

本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。

中文分词 双字耦合度 t测试差 歧义处理 交叉歧义

王思力 王斌

中国科学院计算技术研究所北京 100080 中国科学院研究生院北京 100039 中国科学院计算技术研究所北京 100080

国内会议

第九届全国计算语言学学术会议

大连

中文

58-63

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)