会议专题

垃圾邮件过滤的两种统计方法比较——Bayesian vs.Chi-square

垃圾邮件是指那些你并不希望收到,并且你也没有订阅过,但却被人利用电子邮件的特点强行塞入你的邮箱的商业广告,产品介绍,反动迷信等内容的电子邮件。它不仅占用网络带宽而且带来严重的社会问题,所以越来越多的研究怎样制止垃圾邮件。 Bayesian过滤是一种智能反垃圾邮件技术,它通过学习大量的垃圾邮件和非垃圾邮件,收集邮件中的特征词生成垃圾词库和非垃圾词库,然后根据这些词库的统计频数计算邮件属于垃圾邮件的概率,以此判定邮件是否为垃圾邮件。 Chi-square过滤是一种很新的反垃圾邮件技术,它检验两个样本集-垃圾邮件和非垃圾邮件集,检验n-度单元的显著性,提取出差别显著的关键单元,然后根据这些关键单元判定邮件是否属于垃圾邮件。 利用O”Brien定义的拒绝率、精确度和失误率处理实验结果数据,比较和分析两种方法的效率。结果表明,当采用不确定的分词作为token时,Bayesian过滤的性能降低,而且中文的分词精确性又很差,所以更造成实验结果数据不佳。然而,Chi-square检验过滤相对结果成绩要好点,但当样本更大时,将会更容易拒绝零假设而得到更多无用关键单元,也大大减慢了判定运算。不过,Kilgarriff建议,改良x2检验法—X/d.f.方法将会获得理想的结果,以后我们将作更进一步的研究。

垃圾邮件 统计方法 Bayesian过滤 Chi—square技术 检验过滤 比较分析

沈圆 黄迪明 石彪

电子科技大学计算机科学与工程学院,成都 6100540 湖南商学院,长沙 410205

国内会议

2004年四川省博士专家论坛——信息化与新跨越

成都

中文

69-72

2004-11-13(万方平台首次上网日期,不代表论文的发表时间)