蒙古文原始语料统计建模研究
本文针对蒙古文纠错语料稀缺、扩建难度大,原始语料存在严重的拼写多样化和字形拼写错误而无法直接利用的现状,在分析总结蒙古文编码特性基础上,通过搜集整理大规模原始语料和标注部分语料,以蒙古文输入法为技术实现手段和试验平台,重点解决了基于原始语料统计建模和模型优化等研究问题.实验结果证明,该方法可有效提高输入效率,开拓了蒙古文原始本文建模利用的新思路,对所有蒙古文音词转换和形词转换研究都有广泛的参考价值.
蒙古文 原始文本 统计建模 音词转换 形词转换
白双成
内蒙古社会科学院蒙古语信息技术研发中心,内蒙古呼和浩特010020;内蒙古蒙科立软件股份有限责任公司,内蒙古呼和浩特010011
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-10
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)