基于内容特征的垃圾博客过滤
本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。
文字处理 垃圾博客过滤 语言分析 数理语言学 内容特征
刘玮 廖祥文 许洪波
中国科学院 计算技术研究所 信息智能与信息安全研究中心,北京 100190 中国科学院研究生院,北京 100039 中国科学院 计算技术研究所 信息智能与信息安全研究中心,北京 100190
国内会议
太原
中文
364-370
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)