会议专题

基于PMI-IR算法的Blog情感分类研究

Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。 本文提出了一种基于PMI-IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本中的情感要素和背景情感词之间的点互信息值,从而对文本进行情感分类。该方法在国家语言资源监测与研究中心网络媒体语言分中心2008年度的Blog语料和COAE2008的语料上分别进行了测试。与传统方法相比,准确率和召回率都有了较大的提高。

中文信息处理 情感分类 互信息 PMI—IR算法

段秀婷 何婷婷 宋乐

华中师范大学 计算机科学系,湖北 武汉 430079

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

22-28

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)