基于布局特征与语言特征的网页主要内容块发现
本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。 该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。
网页清理 主要内容块发现 网页切分 布局特征 语言特征
韩先培 刘康 赵军
中国科学院自动化研究所模式识别国家重点实验室,北京 100080
国内会议
苏州
中文
63-69
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)