会议专题

汉语意见型语句主题与情感关系抽取的研究

近年来,随着互联网的发展,越来越多的人在网上发表观点、评论等。目前对于这些包含观点的意见型文本的研究十分活跃,而主题与情感的关系匹配是意见挖掘中比较关键的一项研究内容。通过获得的意见元素关系(以下简称元素关系)为意见挖掘的后续研究奠定了基础,同时元素关系可以有效解决汉语意见挖掘中指代消解以及评价对象遗漏等问题。本文主要研究意见型文本中主题、情感成分的抽取以及二者所含有的元素关系等。本文首先使用信息检索中常用的tf/idf算法抽取主题,利用情感词词典抽取情感,然后将同一个句子中共现的主题以及情感作为候选集合,使用最近匹配以及SVM算法并结合词汇,词性,语义、距离等句子以及上下文特征进行主题以及情感的元素关系抽取。最后,本文除了比较两种算法,还比较了不同规模,不同正反例比例以及不同领域条件下的系统性能指标。

信息检索 关系抽取 最近匹配算法 SVM算法

陈奇哲 刘全升 姚天昉

上海交通大学计算机科学与工程系 上海 200240

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

504-512

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)