基于标签密度的Web页面正文内容提取方法

摘要：

本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。

关键词： Web页面 HTML标签正文内容提取标签密度判定法阈值设置

作者: 胡慧君贾焱刘茂福

作者单位: 武汉科技大学,计算机科学与技术学院,武汉,430081 塔塔信息技术(中国)有限公司北京总部,北京,100081

会议类型: 国内会议

会议名称: 第七届中文信息处理国际会议

会议地点: 武汉

会议语种:中文

页码: 374-378

在线出版日期: 2007-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于标签密度的Web页面正文内容提取方法