基于LDA模型的博客垃圾评论发现
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog 已经成为互联网上的主要信息源之一,这也使得Blog 空间中的垃圾评论成倍增长。本文首先利用处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而得到垃圾评论。经验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog 信息更加准确、有效的为用户使用。
Blog 博文 LDA模型 主题提取 垃圾评论
刁宇峰 林鸿飞
大连理工大学信息检索研究室,大连,116024
国内会议
黑龙江镜泊湖
中文
707-715
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)