会议专题

基于概率模型的包装器健壮性优化方法

由于web数据的动态性,使得脚本生成的网页结构经常发生变化而导致包装器失效.为提高包装器的健壮性,本文引入一种健壮的抽取框架,并根据HTML树节点编辑操作的概率分布,从Web页面进化的文档数据集中学习得到页面进化的概率模型,通过优化该模型来构建健壮的包装器,并提出了一种评估抽取可信度的方法.实验证明,该算法可以有效地应对网站的变化,提高了包装器的健壮性.

包装器 健壮性优化 网页信息抽取 概率模型

李贵 陈韶刚 韩子扬 李征宇 孙平 孙焕良

沈阳建筑大学信息与控制工程学院 辽宁 110168

国内会议

中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会

昆明

中文

208-212

2014-11-01(万方平台首次上网日期,不代表论文的发表时间)