会议专题

一种基于语义的中文文本特征降维技术研究

  本文针对传统特征降维方法忽略特征项本身的语义信息,提出了一种基于潜在语义索引和词聚类的特征降维方法,通过对原始特征词-文档矩阵进行奇异值分解,根据特征词在语义空间中的相似度进行词聚类,在考虑特征词的语义信息的同时实现特征词维度的降低。实验结果表明,基于潜在语义索引和词聚类的中文文本降维方法对文本分类效果有一定的提升。

语义索引 词汇聚类 文字处理 程序语言

黄章益

西安电子科技大学 西安电子科技大学经济管理学院 西安 710071

国内会议

第25届全国计算机信息管理学术研讨会

宁波

中文

98-103

2011-10-01(万方平台首次上网日期,不代表论文的发表时间)