会议专题

一种基于URL模式的分页链接自动获取方法

分页链接获取是大规模数据自动抽取中所面临的主要研究问题,本文提出了一种基于URL模式的分页链接自动获取方法.该方法首先基于分页链接相似性,获取当前页面中的分页链接,然后基于模式匹配算法获取分页链接模式并得到模式中的变动因子,最后利用线性模型预测出所有分页链接.实验结果表明,该方法可以高效地获取分页链接.

分页链接 自动检测 匹配算法 线性模型

李贵 陈成 韩子扬 李征宇 孙平 孙焕良

沈阳建筑大学信息与控制工程系 沈阳110168

国内会议

中国计算机用户协会网络应用分会2013年第十七届网络新技术与应用年会

哈尔滨

中文

58-61,93

2013-08-01(万方平台首次上网日期,不代表论文的发表时间)