会议专题

基于K-最近距离方法的哈萨克语报纸分类初探

本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。

文字处理 哈萨克语 文本分类 数理语言学

玛依来·哈帕尔 古丽拉·阿东别克

新疆大学信息科学与工程学院 乌鲁木齐 830046 新疆大学 乌鲁木齐 830046

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

392-398

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)