基于增量学习和主动学习的垃圾邮件识别新方法
垃圾邮件识别是计算机取证领域的重要研究内容.多数垃圾邮件识别方法未能有效地考虑用户兴趣邮件识别结果的影响.提出了一种基于增量学习和主动学习的垃圾邮件识别新方法.为获得最有效特征,在特征选择阶段综合考虑了单词信息和非单词信息;接着,为减少待标注样本选择时间,提出了一种基于投影的不确定样本选择方法;最后,在样本标注过程中,提出了自动推荐样本类别及用户兴趣度的样本标注新方法.多种对比实验表明,算法针对垃圾邮件识别精度高,待标注样本选择速度较快,用户标注负担较小,具有较高的应用价值.
计算机取证 垃圾邮件 识别方法 增量学习 主动学习
王友卫 朱建明 李洋 凤丽洲
中央财经大学信息学院 北京100081 吉林大学计算机科学与技术学院 长春130012
国内会议
北京
中文
23-27
2015-11-20(万方平台首次上网日期,不代表论文的发表时间)