会议专题

基于视觉特征的网页信息提取

在互联网技术高速发展的时代,Web成为全球最大的信息数据库,如何有效管理、利用Web信息是当前的热点问题,本文主要探讨了Web网页信息提取问题。传统的网页信息提取主要基于DOM树及HTML标签分析,文中在基于网页视觉特征分块算法VIPS础上,通过归纳Web 网页视觉特征及视觉块特征信息,提出了基于视觉块的定位算法的Web页面信息提取方法。分别将主题型网页和BBS型网页作为VIPS算法的输入,分析VIPS算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等视觉特征量,提出了视觉块定位算法VBPA,定位主题信息块到VBT中的某一个节点,进而提取主题信息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息提取质量。

VIPS 视觉块定位 VBPA 主题内容提取 BBS信息提取

吴倩 杨逍 张兆心

哈尔滨工业大学(威海)计算机科学与技术学院,威海,264209

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

16-23

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)