融合多策略的维吾尔语词干提取方法
维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间.本文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型.实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%.
词干提取 N-gram模型 词性特征 词干信息 维吾尔语
赛迪亚古丽·艾尼瓦尔 向露 宗成庆 艾克白尔·帕塔尔 艾斯卡尔·艾木都拉
新疆大学信息科学与工程学院,新疆乌鲁木齐830046 中国科学院自动化研究所模式识别国家重点实验室,北京100190
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-14
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)