一个基于VSM的中文网页分类器的设计与实现
随着网络技术的迅猛发展,中文网页分类作为信息处理的一个重要研究方向已经变得越来越重要.本文主要对网页分类器的关键技术,包括预处理、特征提取、分类模型、评价方法等进行了探讨.提出了基于向量空间模型的网页分类器的结构流程图,引入了标题权重系数,并介绍了具体机器学习的方法.实验结果表明,本文实现的网页分类器具有很好的分类查全率和准确率.
中文网页分类 网页分类器 向量空间模型 标题权重系数
张东礼 汪东升 郑纬民
清华大学计算机系高性能计算技术研究所(北京)
国内会议
秦皇岛
中文
250-253
2002-08-22(万方平台首次上网日期,不代表论文的发表时间)