会议专题

基于内容特征的垃圾博客过滤

本文根据垃圾博客和正常博客在内容特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出了基于博客内容统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。

文字处理 垃圾博客过滤 语言分析 数理语言学 内容特征

刘玮 廖祥文 许洪波

中国科学院 计算技术研究所 信息智能与信息安全研究中心,北京 100190 中国科学院研究生院,北京 100039 中国科学院 计算技术研究所 信息智能与信息安全研究中心,北京 100190

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

364-370

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)