基于爬虫技术的僵尸网站检测

摘要：

　　本文提出一种僵尸网站检测算法，实现对网络中的僵尸网站进行检测。算法运用Python语言的网络爬虫技术，实现对Web网页的爬取；然后对网页爬取的结果，运用MD5签名技术和difflib库进行文件差异分析，记录差异分析得出的结果；最后运用Jieba库中的分词工具，对网页爬取内容进行分词处理，并根据敏感词汇库进行敏感词比对检测。实验测试结果表明，本文算法可以实现对指定网站的全站网页爬取，可以导出网站内更新的网页，检测出敏感词库定义的敏感词。

关键词：僵尸网站网络爬虫差异对比分词 Python

作者: 杨时禹李陶深葛志辉

作者单位: 广西大学计算机与电子信息学院南宁,530004 广西高校并行与分布式计算技术重点实验室南宁,530004

会议类型: 国内会议

会议名称: 第29届全国计算机新科技与教育学术会议

会议地点: 河南开封

会议语种:中文

页码: 1-6

在线出版日期: 2019-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于爬虫技术的僵尸网站检测