会议专题

基于XML的Web信息提取

Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分为三个阶段:HTML页面的模式提取;HTML页面的特征匹配;Web信息的内容提取.本算法已经在COMMIX原型系统中初步实现,兼顾了通用性和高精确度,取得了很好的效果.

XML HTML 信息提取 模式提取 内容提取 模板库 特征匹配

刘世杰 北京大学视觉与听觉信息处理国家重点实验室 杨冬青 北京大学视觉与听觉信息处理国家重点实验室 唐世渭 北京大学视觉与听觉信息处理国家重点实验室 王腾蛟 北京大学视觉与听觉信息处理国家重点实验室 李立宇 北京大学视觉与听觉信息处理国家重点实验室

北京大学计算机科学与技术系

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

123-129

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)