基于语义空间聚类和主题匹配的新闻多文档文本摘要生成方法
多文档文本摘要技术是将同一主题事件的文档汇总、集合,将其中多次重复的相关信息以简洁的方式一次表达在文摘中,解决冗余信息给人们造成困扰的问题.针对网络上大量同一主题事件的新闻网页,根据新闻体裁的特殊结构和内容特点,本文提出一种有效的生成新闻多文档文本摘要的方法.该方法根据语义空间得到词汇相似度,通过聚类方法将同一个事件中的主要主题信息和子主题信息区分出来,并利用主题匹配方法挑选出各主题的代表句,形成候选摘要,尤其讨论了新增文档带来的新增主题实际在线情况,生成的多文档文本摘要不仅能够准确的突出主要信息,并能覆盖其他子主题,动态发现新增信息,使用户全面了解事件的发展过程及变化。
多文档文本摘要 新闻文档 语义空间聚类 主题匹配 词汇相似度
刘茵 李弼程
信息工程大学信息工程学院,郑州,450002
国内会议
秦皇岛·北戴河
中文
853-859
2007-08-06(万方平台首次上网日期,不代表论文的发表时间)