基于布局结构树的网页正文提取

摘要：

提出一种基于布局结构树的网页正文提取方法.该方法首先基于文档对象模型(Document Object Model,DOM)规范将网页映射为DOM树,在DOM树的基础上建立网页布局结构树.根据网页正文通常含有大量有效文本这一直观特点,搜索布局结构树,找到包含所有正文且规模最小的子树.提取子树下所有内容并进行去噪处理,最后得到网页正文内容.实验结果显示95.7％的网页能够被该方法正确提取,表明该方法切实可行,且具有较高的效率和准确性.

关键词：计算机搜索网页正文信息提取布局结构树

作者: 王秀利

作者单位: 中央财经大学信息学院,北京 100081

会议类型: 国内会议

会议名称: 2014全国文档信息处理学术会议

会议地点: 北京

会议语种:中文

页码: 1-5

在线出版日期: 2014-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于布局结构树的网页正文提取