基于多特征的网页内容提取研究
网页内容提取对Web中的Hub型网页和主题型网页有不同的含义。对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。网页内容提取的质量将直接影响到信息检索的查全率和查准率,以及对网页分类/聚类的质量。文中提出了基于多特征的网页内容提取算法。该方法的特点是具有鲁棒性和适用于对海量网页的主题内容提取。实验表明,新算法在处理形式各异的网页内容提取中,在提取正确率等指标上明显优于目前已知的方法。
内容提取 网页净化 内容划分 网页分析
李连霞 马军 陈竹敏
山东大学计算机科学与技术学院,济南,250061
国内会议
第三届和谐人机环境联合(第16届全国多媒体技术、第3届全国人机交互、第3届全国普适计算)学术会议
济南
中文
102-108
2007-10-15(万方平台首次上网日期,不代表论文的发表时间)