基于LDA模型的博客垃圾评论发现

摘要：

Blog(博客)作为一种新兴的网络媒体，在很大程度上增强了互联网的开放性，Blog 已经成为互联网上的主要信息源之一，这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法，针对Blog本身的特点，使用规则初步过滤垃圾评论，然后对剩余评论，利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型，对博客中的博文进行主题提取，并结合主题信息进行判断，从而得到垃圾评论。经验证，该方法可以发现大多数垃圾评论，实验取得了较好的结果，使Blog 信息更加准确、有效的为用户使用。

关键词： Blog 博文 LDA模型主题提取垃圾评论

作者: 刁宇峰林鸿飞

作者单位: 大连理工大学信息检索研究室,大连,116024

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 707-715

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于LDA模型的博客垃圾评论发现