会议专题

网页分类技术研究及系统实现

万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS<””1”>)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改进该系统的方向.

网页分类 网页表示 特征提取 贝叶斯算法 SVM 支持向量机

沈抖 孙建涛 丛艳 陆玉昌

清华大学计算机系智能技术与系统国家重点实验室

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

86-93

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)