会议专题

基于多特征的网页内容提取研究

网页内容提取对Web中的Hub型网页和主题型网页有不同的含义。对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。网页内容提取的质量将直接影响到信息检索的查全率和查准率,以及对网页分类/聚类的质量。文中提出了基于多特征的网页内容提取算法。该方法的特点是具有鲁棒性和适用于对海量网页的主题内容提取。实验表明,新算法在处理形式各异的网页内容提取中,在提取正确率等指标上明显优于目前已知的方法。

内容提取 网页净化 内容划分 网页分析

李连霞 马军 陈竹敏

山东大学计算机科学与技术学院,济南,250061

国内会议

第三届和谐人机环境联合(第16届全国多媒体技术、第3届全国人机交互、第3届全国普适计算)学术会议

济南

中文

102-108

2007-10-15(万方平台首次上网日期,不代表论文的发表时间)