基于相似度的词聚类算法和可变长语言模型

(0)

摘要：

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法.

关键词：互信息词相似度聚类算法可变长语言模型

作者: 袁里驰

作者单位: 江西财经大学,信息学院数据与知识工程江西省重点实验室,江西,南昌,330013;中南大学,信息科学与工程学院,湖南,长沙,410083

会议类型: 国内会议

会议名称: 第二届全国智能信息处理学术会议

会议地点: 徐州

会议语种:中文

页码: 912-915

在线出版日期: 2009-05-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于相似度的词聚类算法和可变长语言模型