会议专题

基于朝鲜语词聚合度的置信度规整方法

朝鲜语在语言形态学中是一种黏着语。在茹着语语音识别技术中,子词切分技术致力于解决黏着语缺乏自然语言模型建模单元的问题,其语言中的自然词由大量词缀附着于词干而构成.在这种情况下,子词切分方法被引入朝鲜语中以处理字典中的高集外词比率问题,该方法将朝鲜语自然词分解为一系列通用性较好的子词单元并构建字典.词聚合度是本文根据子词分割结果所定义的一种新的词属性,数据分析表明具有不同该属性的关键词在置信度分布上有所差异.利用这一特性,本文采用置信度规整方法对关键词置信度分布进行调整,使部分具有较高检出精度的关键词类型在最终的检出结果中占有更高的比例,从而使整体关键词检出精度得到提升.实验表明,利用词聚合度所提供的丰富语言层信息,置信度规整方法在首选精度指标上表现突出,精度提升幅度可以达到13.3%.

语音识别 关键词检索 置信度规整方法 朝鲜语词聚合度

徐及 潘接林 颜永红

语言声学与内容理解重点实验室

国内会议

中国科学院声学研究所纪念建所50周年暨第五届学术交流会

北京

中文

301-304

2014-07-01(万方平台首次上网日期,不代表论文的发表时间)