会议专题

基于可视布局信息的网页噪音去除算法

主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用”布局信息”的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.

网页噪音 可视布局信息

荆涛 左万利

吉林大学计算机科学与技术学院(吉林长春)

国内会议

第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004)

广州

中文

84-87

2004-11-12(万方平台首次上网日期,不代表论文的发表时间)