会议专题

基于遗传算法的主题爬行技术研究

针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.

主题爬虫 遗传算法 主题相关度 本体语义 主题搜索 搜索策略 网页搜索

关慧芬 师军 马继红

陕西师范大学计算机科学学院,西安,710062

国内会议

2008年全国理论计算机科学学术年会

西安

中文

50-53

2008-09-19(万方平台首次上网日期,不代表论文的发表时间)