会议专题

基于统计机器学习的中文在线评论的情感特征项选择

采用统计机器学习方法,对面向情感分类的中文在线评论特征项的选择进行研究.选取词性、词性组合、n-gram作为情感文本的潜在特征项,利用文档频率法对特征项实施降维处理,采用布尔权重法构建特征向量,并采用SVM分类器进行在线评论的情感分类.最后,以手机在线评论为对象进行实验分析,结果表明:中文在线评论的情感分类中,将形容词、副词和动词一同作为特征项,分类准确率最高,选用n-gram作为特征项时,分类准确率随着阶数的增加而下降.同时发现,选取训练语料和特征项的数量对分类效果也有显著影响,但并非数量越多准确率越高.

在线评论 情感分类 特征项选择 统计机器学习

王洪伟 郑丽娟 刘仲英 霍佳震

同济大学经济与管理学院,上海200092

国内会议

信息系统协会中国分会第四届学术年会

上海

中文

460-466

2011-12-02(万方平台首次上网日期,不代表论文的发表时间)