一种基于HITS算法的blog文摘方法
blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合blog评论获取blog文章的主要内容是许多基于blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑blog文章的特殊性,无法有效地结合评论来处理文章。本文通过分析blog的特点提出了一种新的结合评论信息的blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,本文方法在ROUGE测度上优于以往方法。
文档自动摘要 blog 评论信息 HITS算法 图模型
苗家 马军 陈竹敏
山东大学计算机科学与技术学院,济南,250101
国内会议
黑龙江镜泊湖
中文
465-472
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)