会议专题

一种基于树编辑距离的Web表格信息抽取方法

  Web表格广泛存在于网络购物、供求信息、资料检索结果等页面,因此,从Web表格中抽取结构化表格数据,具有重要的研究意义。由于Web网页可解析成树结构形式,经分析,Web表格信息在解析树中具有层次结构分明,类似的Web表格数据域对应的子树结构相似等特点。为此,本文提出一个基于树编辑距离的表格数据域抽取算法EtractDRs。以25个网站的Web表格为数据源,与基于字符串编辑距离算法进行实验比较表明,通过合理设置阂值,EtractDRs算法比基于字符串编辑距离的算法的精确度略有提高的情况下,召回率提高了39.4%,F值提高了26.15%。

Web表格 信息抽取 树编辑距离 技术分析

刘颖 胡学钢 吴共庆

合肥工业大学计算机与信息学院 合肥 230009

国内会议

第七届仪表、自动化与先进集成技术大会暨第六届测控技术与仪器仪表学术大会

丹东·南京

中文

92-96

2012-08-01(万方平台首次上网日期,不代表论文的发表时间)