会议专题

一种基于HITS算法的blog文摘方法

blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特殊性,无法有效地结合评论来处理文章。本文通过分析blog的特点提出了一种新的结合评论信息的blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,本文方法在ROUGE测度上优于以往方法。

文档自动摘要 blog 评论信息 HITS算法 图模型

苗家 马军 陈竹敏

山东大学计算机科学与技术学院,济南,250101

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

465-472

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)