会议专题

汉语主客观文本分类方法的研究

在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本的特点提出了分类适用的预选特征。在此基础上,介绍了通过实验选择稳定的分类特征以及使用weka工具中的多种分类算法进行分类性能的测试。实验结果表明:分类算法的F度量最高时可以达到93.8%,平均F度量也达到了88.4%。这说明我们提出的分类特征和所选择的分类算法是合理和有效的。

文本分类 主观性文本 机器学习 意见挖掘 汉语文本

姚天防 彭思崴

上海交通大学计算机科学与工程系,上海 200240

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

117-123

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)