会议专题

Tag-TextRank:一种基于Tag的网页关键词抽取方法

关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag 数据进行统计分析的基础上,提出了利用Tag 进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank。该方法在TextRank 基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合。在公开语料上的实验表明,Tag-TextRank 在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的适用性。

社会化标签 关键词抽取 Tag数据 TextRank Tag-TextRank

李鹏 王斌 石志伟 崔雅超 李恒训

中国科学院计算技术研究所,北京,100190

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

449-456

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)