一种基于HITS算法的blog文摘方法

摘要：

blog文章对应了大量评论信息，评论中又包含大量的噪声，因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法，并未考虑blog文章的特殊性，无法有效地结合评论来处理文章。本文通过分析blog的特点提出了一种新的结合评论信息的blog文摘方法。该方法首先基于特征计算出评论的权重，然后结合图模型使用HITS算法得到正文句子权重，进而得到文摘句。通过在凤凰博客数据集上的实验表明，本文方法在ROUGE测度上优于以往方法。

关键词：文档自动摘要 blog 评论信息 HITS算法图模型

作者: 苗家马军陈竹敏

作者单位: 山东大学计算机科学与技术学院,济南,250101

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 465-472

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于HITS算法的blog文摘方法