一种图像主题网络爬虫的实现方法研究
针对一种图像主题爬虫进行了设计研究,采用了基于文字内容的启发式方法,实现了借助图像文件的锚文本及其上下文进行主题相关性判定,能更准确的抓取相关图像资源.还对网页实现了主题相关性判定,以便更有效地引导爬虫的爬行路经.经实验证明,本系统可起到一定的优化效果,为实现定向主题的图像信息采集奠定了良好的基础.
链接锚文本 链接上下文 网络爬虫 JXTA 图像主题爬虫 图像信息采集
朱学芳 韩占校
南京大学,信息管理系,江苏,南京,210093
国内会议
南京
中文
115-117,166
2008-11-14(万方平台首次上网日期,不代表论文的发表时间)