基于统计的维吾尔文自动分类研究

摘要：

本文提出了把维吾尔语计算语言学自然语言处理的方法应用于维吾尔文文本计算机自动分类的研究.建立了维吾尔文语料库,维文文本表示采用向量空间模型的方法,用词作为维语的语言单位,既用词、词组、词串为特征单位,采用基于词频统计和规则的特征项的抽取,结合维文自然语言理解来提取文本特征.对词进行结构分析,根据词的结构和中心名词的属性,分类领域属性.采用时事新闻、教育、体育、文学、旅游、新疆民族风情等20类型,本文以维文政治、体育、娱乐、医学的分类为主,对此四种分类实现训练和测试,最终以统计的方法确定该文本的类别,开发了一个维文文本自动分类实验系统.

关键词：维吾尔统计分类自动分类

作者: 古丽拉·阿东别克

作者单位: 新疆大学信息科学与工程学院,乌鲁木齐,830046

会议类型: 国内会议

会议名称: 中国科协2005年学术年会

会议地点: 乌鲁木齐

会议语种:中文

页码: 722-726

在线出版日期: 2005-08-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于统计的维吾尔文自动分类研究