会议专题

一种新颖的词聚类算法

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义.基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.

词相似度 词聚类 统计语言模型 数据稀疏 分层聚类算法

袁里驰 钟义信

北京邮电大学信息工程学院(北京)

国内会议

中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会

成都

中文

522-525

2004-10-01(万方平台首次上网日期,不代表论文的发表时间)