基于遗传算法的主题爬行技术研究
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.
主题爬虫 遗传算法 主题相关度 本体语义 主题搜索 搜索策略 网页搜索
关慧芬 师军 马继红
陕西师范大学计算机科学学院,西安,710062
国内会议
西安
中文
50-53
2008-09-19(万方平台首次上网日期,不代表论文的发表时间)