基于爬虫技术的僵尸网站检测
本文提出一种僵尸网站检测算法,实现对网络中的僵尸网站进行检测。算法运用Python语言的网络爬虫技术,实现对Web网页的爬取;然后对网页爬取的结果,运用MD5签名技术和difflib库进行文件差异分析,记录差异分析得出的结果;最后运用Jieba库中的分词工具,对网页爬取内容进行分词处理,并根据敏感词汇库进行敏感词比对检测。实验测试结果表明,本文算法可以实现对指定网站的全站网页爬取,可以导出网站内更新的网页,检测出敏感词库定义的敏感词。
僵尸网站 网络爬虫 差异对比 分词 Python
杨时禹 李陶深 葛志辉
广西大学计算机与电子信息学院 南宁,530004 广西高校并行与分布式计算技术重点实验室 南宁,530004
国内会议
河南开封
中文
1-6
2019-10-01(万方平台首次上网日期,不代表论文的发表时间)