D-EEM：一种基于DOM树的Deep Web实体抽取机制

摘要：

随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题。本文通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-treebased Entity Extraction Mechanism for Deep Web,D-EEM),能够有效解决Deep Web环境中的实体抽取问题。该机制采用基于DOM 树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成。通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势。

关键词：实体抽取机制 DOM树 Deep Web 区域定位

作者: 寇月李冬申德荣于戈聂铁铮

作者单位: 东北大学信息学院沈阳 110004 东软集团商用软件事业部沈阳 110179

会议类型: 国内会议

会议名称: 2008中国计算机大会

会议地点: 西安

会议语种:中文

页码: 148

在线出版日期: 2008-09-25（万方平台首次上网日期，不代表论文的发表时间）

会议专题

D-EEM：一种基于DOM树的Deep Web实体抽取机制