基于统计的词素切分算法
这篇论文描述了一种基于统计的词素切分算法,算法构建了一种数据结构,在该结构中语料库中的每个词都可以表示为它的词素的二叉树。因为每个词有不同的词素分割,算法选择使整体概率最高的分割,从而找到最优的词素词典和词的分割。我们用英语和维吾尔语作为实验数据,得出了较好的结果。
词素 统计分割 二叉树 维语
董兴华 杨雅婷 陈丽娟 周喜 吐尔洪·吾司曼
中国科学院 新疆理化技术研究所,乌鲁木齐 830011 中国科学院研究生院,100190 中国科学院 新疆理化技术研究所,乌鲁木齐 830011
国内会议
武汉
中文
15-21
2010-10-11(万方平台首次上网日期,不代表论文的发表时间)