会议专题

基于野点学习的中文网页分类系统

网页分类,作为网页信息处理的一个关键技术,是一个典型的机器学习任务.然而由于网页数据的多样性,使得该任务成为一类基于不完整数据学习问题.野点问题是导致网页数据不完整的主要原因之一.网页数据中的野点大致包括:无意义网页,错误标记的网页或者位于多类类别边界的网页,以及类别属性超出预定义类别标记集的网页等.这些存在于网页分类任务中的大量野点,严重影响了系统的分类性能.本文在引入AdaBoost算法的基础上,提出了一种野点剔除策略,并基于此实现了一个中文网页分类系统,实验结果不仅表明新系统具有较好的分类能力,也验证了野点学习的有效性.

中文网页分类 野点学习 AdaBoost算法 网页信息处理 机器学习

罗定生 王馨浩 吴玺宏 迟惠生

北京大学信息科学技术学院智能科学系,视觉与听觉信息处理国家重点实验室,北京,100871

国内会议

第十一届中国人工智能学术年会

武汉

中文

526-531

2005-09-20(万方平台首次上网日期,不代表论文的发表时间)