会议专题

一种基于预定义模式的Wrapper维护方法

Wrapper是Web数据集成的重要组成部分,然而众多的Wrapper生成方法都面临着维护的问题,因为Web页面经常发生变化,Wrapper的维护成为一项很难解决的问题.人们研究快速有效地自动生成Wrapper目的之一也是减小维护的代价,所以,在这种状况下,一旦Wrapper失效,维护工作就变成重新生成Wrapper.显然,这种办法只是权宜之计,而且重新生成Wrapper的代价较大.手工的方法要修改Wrapper代码,需要大量时间;机器学习的方法需要提供大量的例子并标记出抽取项,耗费大量时间;用户指导的方法也需要与用户交互的时间,因此,需要探索新的方法来解决Wrapper的维护问题.本文在WraPPer维护问题上给出了一种有效的解决方法。该方法是建立在模式的基础上,能够适应一些页面的简单变化(如修饰变化),也能够适应部分较复杂的变化,如(结构变化,块间变化,混合变化)。尽管该方法不能实现所有变化的自动维护,但是可以解决部分变化的自动维护问题,因此是一种有效的方法。

预定义模式 Wrapper 自动维护

谷明哲 王海燕 孟小峰

中国人民大学信息学院,北京,100872

国内会议

第十九届全国数据库学术会议

郑州

中文

169-174

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)