基于视觉的网页数据抽取
Web数据抽取的任务是从网页中的半结构化数据中抽取出记录属性、属性值并保存的数据表中。这一工作中重要的一块就是识别数据记录,早起的人工编写规则到封装器通过机器学习发掘规则都是基于网页的HTML结构。本文利用视觉效果进行Web数据记录识别。对数据记录使用拆分一组合的方法,有效的解决了不连续数据区域的问题,并使用视觉信息计算数据记录的相似度。
网页数据抽取 视觉特性 识别技术 相似度计算
ZHANG Wendong 张文东 YUAN Chunfeng 袁春风 WU Gangshan 武港山
Nanjing University, Department of Computer Science and Technology, Nanjing 210093, China 南京大学计算机科学与技术系,南京210093
国内会议
三亚
中文
227-230
2010-03-01(万方平台首次上网日期,不代表论文的发表时间)