一种基于树结构的Web数据自动抽取方法

摘要：

本文介绍了一种基于树结构的自动从HTML页面中抽取数据的方法，在HTML页面的树形结构之上,提出了基于语义块的HTML页面结构模型:HTML页面中的数据值主要存在于语义块中,不同的HTML页面的主要区别在于语义块的区别.基于语义块的结构模型,自动抽取通过4个步骤完成:通过HTML页面比较发现语义块;区分语义块中数据值的角色;推导数据模式和推导抽取规则.在实际HTML页面上的实验已经证明,这种方法能够达到较高的正确率,同时,随着文档的增大,方法也能够保证线性的时间复杂度。

关键词： Web 树结构语义块数据抽取 HTML页面

作者: 胡东东孟小峰

作者单位: 中国人民大学信息学院,北京,100872

会议类型: 国内会议

会议名称: 第二十一届中国数据库学术会议

会议地点: 厦门

会议语种:中文

页码: 1-7

在线出版日期: 2004-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于树结构的Web数据自动抽取方法