基于改进K最近邻分类算法的不良网页并行识别
互联网中,黄色、暴力、赌博、反动等不良网页大量存在.如果不进行有效过滤,将给搜索服务带来不良的影响.采用改进的K最近邻分类算法来提高识别的准确率,并在虚拟化平台上通过开源的Hadoop软件所提供的MapReduce模型进行分布式并行处理.对比实验结果表明,所采用的识别方法的识别准确率和识别效率都有较大的提高.
不良网页 目标识别 并行处理 K最近邻分类算法
徐雅斌 李卓 陈俊伊
北京信息科技大学 计算机学院,北京 100101;网络文化与数字传播北京市重点实验室(北京信息科技大学),北京 100101 北京信息科技大学 计算机学院,北京 100101
国内会议
昆明
中文
3368-3371,3379
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)