一种数据驱动的Wrapper自动生成与维护方法
Wrapper的生成与维护是Deep Web数据集成中一项非常重要的研究课题。传统的方法通常是通过对网页结构或特征的分析来推导Wrapper,这种方法严重依赖于网站模板,在处理某些网站时可能完全失效.同时,以往研究对于Wrapper的维护问题关注较少.这两个问题导致无法真正实现大规模Deep Web数据集成.提出了一种新颖的数据驱动的Wrapper自动生成与维护方法。这种方法利用同一领域不同网站之间,以及同一网站不同版本之间的语义关系,通过数据项的匹配,来生成和维护Wrapper.该方法没有模板依赖的问题,无需设置阈值.经过大量实验证明,此方法在准确性与适用性上与原有方法相比有较大提高.
Deep Web 数据集成 Wrapper自动生成 Wrapper维护 数据驱动 数据项匹配
王仲远 艾静 孟小峰
中国人民大学信息学院 北京 100872
国内会议
桂林
中文
276-281
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)