蒙古文拼写形式多样化问题研究
蒙古文文本中存在一个有别于多数其他文字的特别现象──看到的单词字形正确但其内码序列不正确,或者说单词“变形显现字形”序列正确但“名义字符”序列不正确的现象,称其为蒙古文的拼写形式多样化现象.本文先定义该现象及相关概念,再通过简单图示、例词拼写形式穷举、新闻语料统计分析和基于整篇文章标注统计等多方式、多角度论证这一现象的事实性和严重性,分析导致这一现象的深层原因并指出拼写形式多样化对蒙古文信息处理和应用方面的严重影响,最后提出通过推广普及录入规范和标准提高用户意识、使用智能输入法避免误录、使用校对纠错工具后纠正、基于生语料的统计学习方法为补充等多途径解决方法.本文对蒙古文标准编码的推广普及具有较好的参考价值.
蒙古文 拼写形式 多样化现象 读音错误 字形错误 智能输入
白双成 S·苏雅拉图 张劲松
北京语言大学信息科学学院,北京 100190;内蒙古社会科学院蒙古语信息处理研究所,呼和浩特 010020;内蒙古蒙科立软件有限责任公司,呼和浩特 010019 内蒙古社会科学院蒙古语信息处理研究所,呼和浩特 010020;内蒙古蒙科立软件有限责任公司,呼和浩特 010019 北京语言大学信息科学学院,北京 100190
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-10
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)