基于结构分析和实体识别的信息集成

摘要：

本文针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容，方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性。

关键词：信息提取信息集成 XML Wrapper 实体识别 Web数据

作者: 苏志华杨冬青唐世渭王腾蛟

作者单位: 北京大学计算机科学与技术系,北京,100871 北京大学计算机科学与技术系,北京,100871;北京大学视觉听觉与信息处理国家重点实验室,北京,100871

会议类型: 国内会议

会议名称: 第二十一届中国数据库学术会议

会议地点: 厦门

会议语种:中文

页码: 217-222

在线出版日期: 2004-10-14（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于结构分析和实体识别的信息集成