一种基于URL模式的分页链接自动获取方法
分页链接获取是大规模数据自动抽取中所面临的主要研究问题,本文提出了一种基于URL模式的分页链接自动获取方法.该方法首先基于分页链接相似性,获取当前页面中的分页链接,然后基于模式匹配算法获取分页链接模式并得到模式中的变动因子,最后利用线性模型预测出所有分页链接.实验结果表明,该方法可以高效地获取分页链接.
分页链接 自动检测 匹配算法 线性模型
李贵 陈成 韩子扬 李征宇 孙平 孙焕良
沈阳建筑大学信息与控制工程系 沈阳110168
国内会议
中国计算机用户协会网络应用分会2013年第十七届网络新技术与应用年会
哈尔滨
中文
58-61,93
2013-08-01(万方平台首次上网日期,不代表论文的发表时间)