基于标签密度的Web页面正文内容提取方法
本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,即标签在Web页面文本中含量这一关键阈值,作为区分Web页面文本正文与广告、赞助商链接等其他内容的主要依据。对于大部分的新闻门户网站,只要标签密度阈值设置适当,此方法就能相当准确地提取出Web页面的正文内容。
Web页面 HTML标签 正文内容提取 标签密度判定法 阈值设置
胡慧君 贾焱 刘茂福
武汉科技大学,计算机科学与技术学院,武汉,430081 塔塔信息技术(中国)有限公司北京总部,北京,100081
国内会议
武汉
中文
374-378
2007-10-13(万方平台首次上网日期,不代表论文的发表时间)