基于关键词提取的搜索结果聚类研究
信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,工本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。
关键词提取 搜索结果聚类 信息检索
秦鹏 李恒训 张华平 刘金刚
首都师范人学计算机联合实验室,北京 100037 中国科学院计算技术研究所,北京 100190 中国科学院计算技术研究所,北京 100190
国内会议
上海
中文
358-367
2009-11-14(万方平台首次上网日期,不代表论文的发表时间)