会议专题

基于布局结构树的网页正文提取

提出一种基于布局结构树的网页正文提取方法.该方法首先基于文档对象模型(Document Object Model,DOM)规范将网页映射为DOM树,在DOM树的基础上建立网页布局结构树.根据网页正文通常含有大量有效文本这一直观特点,搜索布局结构树,找到包含所有正文且规模最小的子树.提取子树下所有内容并进行去噪处理,最后得到网页正文内容.实验结果显示95.7%的网页能够被该方法正确提取,表明该方法切实可行,且具有较高的效率和准确性.

计算机搜索 网页正文 信息提取 布局结构树

王秀利

中央财经大学 信息学院,北京 100081

国内会议

2014全国文档信息处理学术会议

北京

中文

1-5

2014-11-01(万方平台首次上网日期,不代表论文的发表时间)