多音字自动标音研究现状综述

摘要：

本文就多音字的自动标音进行了研究，指出由于由于多音字成因复杂，分类也多种多样，很难实现多音字读音识别和标注的完全规则化。为了达到更高的准确率，首先应当对多音字的总量和每个字音项的数量有较为完善的统计结果，统计的数据越接近穷尽，多音字语料库就越完善。同时还要研究常用多音字特征因素，概括和描写为分类的规律，例如通过标注词性、语义等特征描写，使多音字的音项具有唯一性。特殊的高频多音字可以做逐个分析，概括总结或穷尽描写其特征因素，总结为规律。由于多音字很难实现完全的规则化，不能通过规则来实现自动标音的多音字，可采用基于统计的计算机学习方法来实现。总之，详尽具体的语言规则与大范围的统计方法相结合最大限度地提高多音字自动标音的准确率。

关键词：信息处理多音字自动标音过程特征提取规则化处理准确率

作者: 李子漫

作者单位: 中国社会科学院研究生院

会议类型: 国内会议

会议名称: 第八届全国语言文字应用学术研讨会

会议地点: 金华

会议语种:中文

页码: 209-215

在线出版日期: 2013-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

多音字自动标音研究现状综述