会议专题

BBS短文本聚类技术研究

高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术可以有效地重新组织并利用BBS信息。BBS文本是短文本的一种主要表现形式。本文针对短文本信息量少的特点,提出了一种改进的K-means聚类算法来解决短文本聚类问题。该算法通过引入重构长文本的思想解决了短文本的稀疏性问题,并利用近邻传播算法对初始类别中心进行了优化选择,从而克服了K-means算法对初始点的敏感问题。实验表明,该算法对于短文本聚类取得了很好的效果。

短文本聚类 近邻传播算法 BBS论坛

孙承杰 朱文焕 林磊 刘远超

哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001 哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001 哈尔滨工业大学控制科学与工程系,哈尔滨,150001

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

470-479

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)