LDA主题驱动的中文多文档自动文摘方法

摘要：

多文档自动文摘能够帮助人们自动、快速地获取信息，本文实现了一个基于主题模型的中文多文档自动文摘系统，其中主题模型采用浅层狄利赫雷分配(LatentDirichlet Allocation，LDA)，该模型是—个多层的产生式概率模型，能够检测文档中的主题分布。该方法使用LDA为多文档集合建模，通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度，并根据句子重要度进行文摘句的抽取。实验结果表明，该方法所得到的文摘，性能优于传统的文摘方法。

关键词：中文自动文摘主题模型 LDA 多文档

作者: 张明慧王红玲周国栋

作者单位: 苏州大学计算机科学与技术学院,江苏苏州 215002 江苏省计算机信息处理技术重点实验室,江苏苏州 215002

会议类型: 国内会议

会议名称: 第五届全国青年计算语言学研讨会(YWCL 2010)

会议地点: 武汉

会议语种:中文

页码: 393-398

在线出版日期: 2010-10-11（万方平台首次上网日期，不代表论文的发表时间）

会议专题

LDA主题驱动的中文多文档自动文摘方法