会议专题

基于统计的维吾尔文自动分类研究

本文提出了把维吾尔语计算语言学自然语言处理的方法应用于维吾尔文文本计算机自动分类的研究.建立了维吾尔文语料库,维文文本表示采用向量空间模型的方法,用词作为维语的语言单位,既用词、词组、词串为特征单位,采用基于词频统计和规则的特征项的抽取,结合维文自然语言理解来提取文本特征.对词进行结构分析,根据词的结构和中心名词的属性,分类领域属性.采用时事新闻、教育、体育、文学、旅游、新疆民族风情等20类型,本文以维文政治、体育、娱乐、医学的分类为主,对此四种分类实现训练和测试,最终以统计的方法确定该文本的类别,开发了一个维文文本自动分类实验系统.

维吾尔 统计 分类 自动分类

古丽拉·阿东别克

新疆大学信息科学与工程学院,乌鲁木齐,830046

国内会议

中国科协2005年学术年会

乌鲁木齐

中文

722-726

2005-08-18(万方平台首次上网日期,不代表论文的发表时间)