基于布局结构树的网页正文提取
提出一种基于布局结构树的网页正文提取方法.该方法首先基于文档对象模型(Document Object Model,DOM)规范将网页映射为DOM树,在DOM树的基础上建立网页布局结构树.根据网页正文通常含有大量有效文本这一直观特点,搜索布局结构树,找到包含所有正文且规模最小的子树.提取子树下所有内容并进行去噪处理,最后得到网页正文内容.实验结果显示95.7%的网页能够被该方法正确提取,表明该方法切实可行,且具有较高的效率和准确性.
计算机搜索 网页正文 信息提取 布局结构树
王秀利
中央财经大学 信息学院,北京 100081
国内会议
北京
中文
1-5
2014-11-01(万方平台首次上网日期,不代表论文的发表时间)