会议专题

词聚类在文本分类中的应用

现有的文本分类方法需要较大的训练语料,在训练语料足够大的前提下可取得不错的效果,训练语料的规模直接影响分类的效果.然而,要大规模人工进行语料标注是一个难题.本文将k-means聚类算法引入到文本分类中,首先在无标注语料上进行词聚类,然后将聚类结果作为文本特征来代替词特征.通过这种方法,利用无标注的训练语料来改善训练语料不足的情况下文本分类的效果.实验结果表明,采用这种方法,在同等训练语料的情况下,分类性能确实有所提高.

文本分类 背景语料 语料标注 自然语言处理

朱慕华 陈文亮 朱靖波

东北大学自然语言处理实验室(辽宁)

国内会议

第二届全国学生计算语言学研讨会

北京

中文

399-405

2004-08-01(万方平台首次上网日期,不代表论文的发表时间)