会议专题

面向Web论坛的多文档摘要方法

Web论坛文章具有数据量大、信息重复度高的特点,如何快速准确地获取文章主要内容是许多基于论坛应用面临的难题。以往的多文档摘要方法由于没有考虑论坛文章的特殊性,不能有效的处理论坛文章。本文根据Web论坛文章在结构和语法上的特点,提出了新颖的面向论坛的多文档摘要方法。该方法首先使用了基于上下文语义的过滤算法去除噪声信息,然后给出了适合论坛文章的多种特征,通过计算句子权重来选取摘要句子。在“新华网”数据集上进行的实验表明,本方法在传统的ROUGE值和本文给出的观点覆盖率等评测标准上的评测结果均优于传统方法。

Web论坛 多文档自动摘要 观点覆盖率

王晖 马军

山东大学计算机科学与技术学院,济南,250101

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

232-241

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)