一种全自动生成网页信息抽取Wrapper的方法

摘要：

Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点，运用网页链接分类算法和网页结构分离算法，抽取出网页中各个信息单元，并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明，该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取，抽取结果达到非常高的准确率。

关键词：网页信息抽取网页结构分离包装器 Wrapper

作者: 梅雪程学旗郭岩张刚丁国栋

作者单位: 中国科学院计算技术研究所,北京 100080;中国科学院成都计算机应用研究所,四川省成都市 610041;中国科学院研究生院,北京 100049 中国科学院计算技术研究所,北京 100080

会议类型: 国内会议

会议名称: 第三届全国信息检索与内容安全学术会议

会议地点: 苏州

会议语种:中文

页码: 84-91

在线出版日期: 2007-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种全自动生成网页信息抽取Wrapper的方法