基于主题词的网络热点话题发现
网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战.本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最后,以主题词为线索,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现了网络热点话题的发现。通过在TDT4评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得了0.282的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法.实验表明,该算法对网络热点话题发现行之有效。
信息检索 主题词提取 热点话题发现 聚类分析
李恒训 张华平 秦鹏 于满泉 刘金刚
中国科学院计算技术研究所,北京 100190 首都师范大学计算机联合实验室,北京 100037 中国科学院计算技术研究所,北京 100190 首都师范大学计算机联合实验室,北京 100037 中国科学院计算技术研究所,北京 100190
国内会议
上海
中文
134-143
2009-11-14(万方平台首次上网日期,不代表论文的发表时间)