基于混合策略的维吾尔语名词词干提取系统
本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM).然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处理方法。本文,有机结合以上三种方法构造出了基于规则和统计的名词词干提取方法.为了有效利用现有的资源,提高系统的性能,把基于词典的词干提取方法与规则和统计相结合的名词词干提取方法的结合,从而开发出多种策略相结合的维吾尔语名词词干提取系统,该系统具有较强的鲁棒性,准确率保持95%以上。
维吾尔语 黏着语 有限状态自动机 噪声信道 词干提取 最大熵
早克热·卡德尔 艾山·吾买尔 吐尔根·依布拉音 帕里旦·吐尔逊 买热哈巴·艾力
新疆大学信息科学与工程学院,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046 新疆多语种信息技术重点实验室,新疆,乌鲁木齐 830046 新疆大学软件学院,新疆, 乌鲁木齐 830046
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
222-226
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)