基于XML的Web信息提取

摘要：

Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分为三个阶段:HTML页面的模式提取;HTML页面的特征匹配;Web信息的内容提取.本算法已经在COMMIX原型系统中初步实现,兼顾了通用性和高精确度,取得了很好的效果.

关键词： XML HTML 信息提取模式提取内容提取模板库特征匹配

作者: 刘世杰北京大学视觉与听觉信息处理国家重点实验室杨冬青北京大学视觉与听觉信息处理国家重点实验室唐世渭北京大学视觉与听觉信息处理国家重点实验室王腾蛟北京大学视觉与听觉信息处理国家重点实验室李立宇北京大学视觉与听觉信息处理国家重点实验室

作者单位: 北京大学计算机科学与技术系

会议类型: 国内会议

会议名称: 全国搜索引擎和网上信息挖掘学术讨论会

会议地点: 北京

会议语种:中文

页码: 123-129

在线出版日期: 2003-03-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于XML的Web信息提取