会议专题

基于协同聚类的两阶段文本聚类方法研究

作为一种自然语言处理应用,文本聚类具有高维和语义相关的特点,属于无监督的学习方法.但由于缺乏类别信息,成功应用于文本分类的有监督的特征选择方法很难直接应用于文本聚类.为了将语义信息用于文本聚类和有效地进行特征选择,本文提出了一种基于协同聚类的两阶段文本聚类方法.该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类.实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类效果.同时,通过两阶段聚类方式不仅能有效地进行特征选择,而且聚类效果得到很大提高.本文最后还利用特征之间的语义关联关系在进行特征选择之后进行特征扩展,使聚类效果得到了进一步的提高.

文本聚类 协同聚类 特征选择 特征扩展 自然语言处理

王明文 付剑波 罗远 陆旭

江西师范大学计算机信息工程学院,江西南昌,330022 江西财经大学信息管理学院,江西南昌,330013 江西财经大学信息管理学院,江西南昌,330013 江西财经大学现代教育技术中心,汀西南昌,330013

国内会议

第四届全国信息检索与内容安全学术会议

北京

中文

620-629

2008-11-15(万方平台首次上网日期,不代表论文的发表时间)