会议专题

一种有效的中文多文档摘要方法

考察多文档集合的特征,提出了一种基于(Latent SemanticIndex)LSI(潜在语义标引)的多文档摘要自动生成方法LSISUM。该方法在根据词性提取特征的基础上,运用LSI技术对TF-ISF特征矩阵进行概念层次的降维,构造文档句子的向量空间模型。设计一种综合层次聚类和K-medoids聚类思想的新聚类算法进行多文档摘要句的选择。 并将凝聚聚类的思想运用到摘要句排序算法中,结合摘要句的位置信息进行排序,生成摘要。 对多文档摘要质量进行了性能和效果评测,结果表明该多文档摘要方法是有效可行的。

多文档摘要 潜在语义标引LSI 凝聚聚类 K*medoids聚类

林赛群 张辉 庞斌 周刚

北京航空航天大学软件开发环境国家重点实验室,北京 100083

国内会议

2007中国计算机大会

苏州

中文

1487-1495

2007-10-18(万方平台首次上网日期,不代表论文的发表时间)