基于内容特征的垃圾博客过滤

摘要：

本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97％,比基于词频特征的过滤方法提高了约7％,在不同规模训练集上的准确性保持在95％左右,具有更好的泛化能力。

关键词：文字处理垃圾博客过滤语言分析数理语言学内容特征

作者: 刘玮廖祥文许洪波

作者单位: 中国科学院计算技术研究所信息智能与信息安全研究中心,北京 100190 中国科学院研究生院,北京 100039 中国科学院计算技术研究所信息智能与信息安全研究中心,北京 100190

会议类型: 国内会议

会议地点: 太原

会议语种:中文

页码: 364-370

在线出版日期: 2008-07-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题