基于互信息的词聚类方法
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义。基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果。实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进。
互信息 词相似度 分层聚类算法 统计语言模型
袁里驰 吴京慧
江西财经大学信息管理学院,南昌 330013
国内会议
2006年全国信息、电子与控制技术学术会议(IECT”2006)
成都
中文
31-34
2006-09-28(万方平台首次上网日期,不代表论文的发表时间)