基于K-最近距离方法的哈萨克语报纸分类初探
本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。
文字处理 哈萨克语 文本分类 数理语言学
玛依来·哈帕尔 古丽拉·阿东别克
新疆大学信息科学与工程学院 乌鲁木齐 830046 新疆大学 乌鲁木齐 830046
国内会议
太原
中文
392-398
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)