词聚类在文本分类中的应用

摘要：

现有的文本分类方法需要较大的训练语料,在训练语料足够大的前提下可取得不错的效果,训练语料的规模直接影响分类的效果.然而,要大规模人工进行语料标注是一个难题.本文将k-means聚类算法引入到文本分类中,首先在无标注语料上进行词聚类,然后将聚类结果作为文本特征来代替词特征.通过这种方法,利用无标注的训练语料来改善训练语料不足的情况下文本分类的效果.实验结果表明,采用这种方法,在同等训练语料的情况下,分类性能确实有所提高.

关键词：文本分类背景语料语料标注自然语言处理

作者: 朱慕华陈文亮朱靖波

作者单位: 东北大学自然语言处理实验室(辽宁)

会议类型: 国内会议

会议名称: 第二届全国学生计算语言学研讨会

会议地点: 北京

会议语种:中文

页码: 399-405

在线出版日期: 2004-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

词聚类在文本分类中的应用