会议专题

基于LDA模型的博客垃圾评论发现

Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog 已经成为互联网上的主要信息源之一,这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而得到垃圾评论。经验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog 信息更加准确、有效的为用户使用。

Blog 博文 LDA模型 主题提取 垃圾评论

刁宇峰 林鸿飞

大连理工大学信息检索研究室,大连,116024

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

707-715

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)