会议专题

基于关键词提取的搜索结果聚类研究

信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。

关键词提取 搜索结果聚类 信息检索

秦鹏 李恒训 张华平 刘金刚

首都师范人学计算机联合实验室,北京 100037 中国科学院计算技术研究所,北京 100190 中国科学院计算技术研究所,北京 100190

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

358-367

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)