会议专题

敏感话题发现中的增量型文本聚类模型

面对网络上更新快速的海量新闻,如何快速、有效地从中自动发现敏感话题并进行持续跟踪是当下研究的热点.文章以网络舆情分析系统为应用背景,针对其敏感话题发现过程,通过对TDT领域应用较多的Single-pass算法进行改进,提出了一种基于相似哈希的增量型文本聚类算法.基于实际应用中抓取到的新闻文本数据,实验结果表明,文章提出的算法相比于原Single-pass算法在聚类效率方面具有明显提升.从实际应用的效果来看,该算法达到了实时话题发现的预期需求,具有较高的实用价值.

网络舆情 话题发现 文本聚类 相似哈希理论

-张越今 丁丁

北京市互联网信息办公室,北京100062 武汉大学计算机学院,湖北武汉430072

国内会议

第30次全国计算机安全学术交流会

重庆

中文

170-174

2015-09-17(万方平台首次上网日期,不代表论文的发表时间)