会议专题

基于统计的词素切分算法

这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用英语和维吾尔语作为实验数据,得出了较好的结果。

词素 统计分割 二叉树 维语

董兴华 杨雅婷 陈丽娟 周喜 吐尔洪·吾司曼

中国科学院 新疆理化技术研究所,乌鲁木齐 830011 中国科学院研究生院,100190 中国科学院 新疆理化技术研究所,乌鲁木齐 830011

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

15-21

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)