一种基于分块的Web数据实体抽取方法

摘要：

文章对于如何从Web页面中抽取数据实体进行了研究,并提出一种新的方法,用于解决单个Web页面中出现多个可能的匹配实体时所产生的准确性问题。对于如何从Web页面中抽取数据实体,大多数已有的解决方法主要依赖于对Web页面的HTML DOM树和tags进行分析,这类方法过于依赖HTML的细节而缺乏对语义的支持,并没有很好地处理多主题对数据提取的准确性所带来的影响.文章中的方法则利用页面显示时的视觉信息将Web页面划分成多个块,然后在块这一层上在传统的文本检索技术上通过使用预定义规则来引入对语义的支持,并在出现多个匹配目标时进行块细分后的再定位,以使结果更加准确.实验表明该方法会取得非常好的准确性。

关键词： Web实体抽取页面分块 VIPS 数据实体文本编辑距离

作者: 王生辉李庆忠董永权

作者单位: 山东大学计算机科学与技术学院济南 250101

会议类型: 国内会议

会议名称: 全国Web信息系统及其应用学术会议、全国语义Web与本体论学术研讨会暨全国电子政务技术与应用学术研讨会

会议地点: 西安

会议语种:中文

页码: 54-56,70

在线出版日期: 2008-04-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于分块的Web数据实体抽取方法