会议专题

基于K-最近距离方法的哈萨克语文本分类系统的设计与实现

本文利用K-最近距离算法对哈萨克语文本进行分类,通过统计词频信息和语言信息相结合的方法选择特征,实现了一个哈萨克语文本分类系统。在计算特征权重值时不仅考虑词频,还利用了特征的集中度、分散度,经过训练和统计对每一类哈萨克语文本形成特征的权重向量,然后根据K-最近距离算法判断测试文本的所属类别,实验结果表明此方法可行。

文本分类 K-最近距离 集中度 分散度

玛依来·哈帕尔 古丽拉·阿东别克

新疆大学信息科学与工程学院,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046

国内会议

第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会

乌鲁木齐

中文

6-9

2010-06-27(万方平台首次上网日期,不代表论文的发表时间)