网络热点事件发现系统的设计

本文设计了一种热点事件发现系统.该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用本系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。
文字处理 新闻语料 语料聚类 数理语言学 热点事件发现系统
刘星星 何婷婷 龚海军 陈龙
华中师范大学计算机科学系 武汉 430079 国家语言资源监测与研究中心网络媒体分中心 武汉 430079
国内会议
太原
中文
399-405
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)