会议专题

基于主题模型LDA的多文档自动摘要

随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(LatentDirichlet Allocation)是主题模型中具有代表性的概率生成性模型之一。本文提出了一种基于LDA的文摘方法,该方法以复杂度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度。根据LDA模型中主题的概率分布和句子的概率分布提出了两种小同的句子权重计算模型。实验中使用ROUGE评测标准,与代表最新水平的SumBasic和其他基于LDA的多文档摘要在普通多文档摘要测试集DUC2002上的评测数据进行比较,结果表明本文提出的基于LDA的多文档摘要在ROUGE的各个评测标准上均优于SumBasic,与其他基于LDA模型的文摘相比也具有优势。

LDA模型 多文档自动文摘 句子分值计算 主题数目 概率生成性模型

杨潇 马军 杨同峰 杜言琦 邵海敏

山东大学 计算机科学与技术学院,山东 济南 250101

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

488-497

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)