基于视觉的网页数据抽取

摘要：

　　Web数据抽取的任务是从网页中的半结构化数据中抽取出记录属性、属性值并保存的数据表中。这一工作中重要的一块就是识别数据记录，早起的人工编写规则到封装器通过机器学习发掘规则都是基于网页的HTML结构。本文利用视觉效果进行Web数据记录识别。对数据记录使用拆分一组合的方法，有效的解决了不连续数据区域的问题，并使用视觉信息计算数据记录的相似度。

关键词：网页数据抽取视觉特性识别技术相似度计算

作者: ZHANG Wendong 张文东 YUAN Chunfeng 袁春风 WU Gangshan 武港山

作者单位: Nanjing University, Department of Computer Science and Technology, Nanjing 210093, China 南京大学计算机科学与技术系,南京210093

会议类型: 国内会议

会议名称: 中国电子学会信息论分会2009年研究生学术交流会

会议地点: 三亚

会议语种:中文

页码: 227-230

在线出版日期: 2010-03-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于视觉的网页数据抽取