会议专题

识别网页上的表单和表结构

如何从Web这个巨大的信息库中获取所需的信息是近年来的研究热点之一.由于人们的表达习惯,Web网页上有许多信息,特别是关系信息常常以表单(list)或表(table)的形式出现,自动地识别这些结构是Web内容挖掘的重要工作之一.本文提出了一种基于逻辑结构分析的识别方法,可实现自动地识别Web上的各种形式不同的、带有不同HTML标记的表单和表结构.

表单结构 表结构 网页分析 Web内容挖掘 特征提取

吴扬扬

华侨大学计算机科学系

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

116-122

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)