会议专题

基于结构调整的Web页分块

根据结构和主题将Web页分成多个信息块是Web信息处理的重要任务。本文针对分块算法对Web页的适应能力不强的问题,分析总结了影响分块算法效果的两个主要因素:复杂的页面布局方式和标签冗余。在此基础上,提出了Web页结构调整算法。首先将Web页的标签树转化为行列树,然后修剪行列树中的冗余结点。本文最后用路径熵方法和内容距离方法对结构调整前后的页面进行了对比分块实验。实验数据表明,结构调整有效地改善了分块算法的分块效果。

信息抽取 网页分块 页面布局 冗余结点

李雄 金立左

东南大学,南京 210096

国内会议

2007江苏省自动化学会学术年会

南京

中文

60-64

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)