基于词矢量的K均值短文本分类
本文主要以互联网中出现的短文本作为研究对象,由于短文本具有内容短小,相互共享的词汇较少,因此在分类过程中容易出现大量的集外词,导致分类性能降低.传统的文本分类算法,通常使用词袋模型或空间向量模型,将文本离散化,使用维度为词典大小的向量来表示文本.这种表示方法认为词与词之间是孤立的,忽略了词之间的句法和语义相似度.鉴于此,本文提出了一种基于词矢量的K均值(K-Means)短文本分类算法,利用词矢量将词映射成低维矢量,矢量之间的距离描述了词之间的句法和语义相似度.实验证明,本文提出的方法能够有效的解决集外词现象.
K均值短文本分类 词矢量 性能评价
马成龙 张艳 颜永红
中国科学院语言声学与内容理解重点实验室
国内会议
北京
中文
268-272
2014-07-01(万方平台首次上网日期,不代表论文的发表时间)