会议专题

面向网络论坛的突发话题抽取

每天有大量的信息涌现在论坛上,用户可以通过论坛获知目前国际国内正在发生的一些突发事件。这些突发事件或话题在论坛中并不是显而易见的,它们需要通过人工的总结与归纳。这需要花费大量的人力资源,并且效率低下。如何使用机器自动化的方法抽取论坛中的突发话题已经成为搜索引擎以及网络挖掘系统的一项基础任务。话题检测与跟踪模型(TDT)可以很好的解决话题抽取问题,但是TDT处理的对象是新闻语料,与论坛内容相比,新闻语料更准确,严谨,规范。TDT中使用的方法不适合用语随意的论坛。因此在网络论坛这种噪音环境下的话题抽取面临着一定的困难与挑战。文中提出一种基于噪音过滤的话题抽取模型,它从内容和用户参与度两个角度来抽取论坛话题。在“水木社区”的“水木特快”上进行了相关的实验,实验结果表明本文提出的模型不仅可以抽取突发话题,而且可以抽取与这些话题相对应的用户社区。该模型抽取的突发话题组织清晰,易于理解,可以很好的应用到搜索引擎中。

突发话题抽取 网络论坛 时间序列 频率划分

陈友 程学旗 杨森

中国科学院 计算技术研究所,北京 100190 中国科学院研究生院,北京 100190 中国科学院 计算技术研究所,北京 100190

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

171-185

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)