一种基于显示属性的网页信息提取方法

摘要：

在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单、易于实现,不依赖源网页的结构。

关键词：网页信息 Web信息提取属性向量 HTML结构文本分类

作者: 汪建伟高军王腾蛟杨冬青

作者单位: 北京大学信息科学技术学院,北京 100871;军事交通学院,天津 300161 北京大学信息科学技术学院,北京 100871

会议类型: 国内会议

会议名称: 2007年全国网络与信息安全技术研讨会

会议地点: 青岛

会议语种:中文

页码: 316-324

在线出版日期: 2007-07-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于显示属性的网页信息提取方法