基于结构分析和实体识别的信息集成
本文针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容,方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性。
信息提取 信息集成 XML Wrapper 实体识别 Web数据
苏志华 杨冬青 唐世渭 王腾蛟
北京大学计算机科学与技术系,北京,100871 北京大学计算机科学与技术系,北京,100871;北京大学视觉听觉与信息处理国家重点实验室,北京,100871
国内会议
厦门
中文
217-222
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)