会议专题

一种Deep Web聚焦爬虫爬行策略

实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的特征分析来判断Deep Web数据源的主题相关性,同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息,实验证明该方法是有效的.

Web数据源 聚焦爬虫 决策树分类器 爬行策略 主题相关性

蔡欣宝 陈洪平 赵朋朋 崔志明

苏州大学,智能信息处理及应用研究所,江苏,苏州,215006 苏州大学,智能信息处理及应用研究所,江苏,苏州,215006;江苏省现代企业信息化应用支撑软件工程技术研发中心,江苏,苏州,215104

国内会议

2009年全国开放式分布与并行计算学术年会

乌鲁木齐

中文

117-120

2009-09-01(万方平台首次上网日期,不代表论文的发表时间)