会议专题

一种基于树结构的Web数据自动抽取方法

本文介绍了一种基于树结构的自动从HTML页面中抽取数据的方法,在HTML页面的树形结构之上,提出了基于语义块的HTML页面结构模型:HTML页面中的数据值主要存在于语义块中,不同的HTML页面的主要区别在于语义块的区别.基于语义块的结构模型,自动抽取通过4个步骤完成:通过HTML页面比较发现语义块;区分语义块中数据值的角色;推导数据模式和推导抽取规则.在实际HTML页面上的实验已经证明,这种方法能够达到较高的正确率,同时,随着文档的增大,方法也能够保证线性的时间复杂度。

Web 树结构 语义块 数据抽取 HTML页面

胡东东 孟小峰

中国人民大学信息学院,北京,100872

国内会议

第二十一届中国数据库学术会议

厦门

中文

1-7

2004-10-14(万方平台首次上网日期,不代表论文的发表时间)