会议专题

基于K最近邻的隐含主题自动抽取

现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题。

关键词 自动抽取 K最近邻 隐含主题 向量空间模型

张庆国 章成志 薛德军 张君玉

清华同方知网(北京)技术有限公司 北京 100084 南京理工大学信息管理系 南京 210094 中国科学院研究生院 北京 100049

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

16-24

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)