会议专题

基于表格特征的Web数据抽取方法

随着Internet的普及,web上有价值的信息日益增多,使得web数据抽取技术成为近年来的研究重点。通过分析近几年web抽取技术的研究成果,根据现有的抽取技术所面临的可维护性差和实用性不高等不足,提出一种基于表格特征的web数据抽取方法。该方法利用表格数据特征的规则表达式进行模式匹配,通过解析页面表格的HTML提取出表格数据,从而提升了抽取系统的可维护性和实用性。

Web数据抽取 表格特征 解析页面

李贵 冯季昉 韩子扬 郑新录

沈阳建筑大学信息与控制工程学院 沈阳 110168

国内会议

2009国际信息技与应用论坛

成都

中文

285-287

2009-05-15(万方平台首次上网日期,不代表论文的发表时间)