一种基于DOM树的Web信息提取方法

摘要：

在Web信息提取技术中，有一种方法是基于HTML结构的信息提取。这种方法的关键是识别出HTML页面的组织模式，用某种合适的模型来建模以进行信息提取工作。本文以此为基础利用Document Object Model (DOM)”1”树建立网页的结构模型，给出了一个基于树的算法，使用htrrdparser1工具确定查询返回页面中的有效信息区域并提取出有效数据。开发了一个简单的应用此算法的系统，经试验，此算法针对符合HTML语法规范的页面具有很高的正确率。

关键词： DOM树 htrnlparser 页面信息提取 Web信息提取 HTML页面

作者: 王英奎潘无名李孝文谭钱茂

作者单位: 四川大学计算机学院成都 610065

会议类型: 国内会议

会议名称: 2008年中国信息技术与应用学术论坛

会议地点: 成都

会议语种:中文

页码: 130-131

在线出版日期: 2008-04-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于DOM树的Web信息提取方法