会议专题

基于非限定词图的关键词检索

  在关键词系统进行快速索引的时候,因为速度的提升,剪枝力度的加大,会造成召回率的严重不足,究其原因是因为解码生成的词图会丢失很多的信息。在本文中,集中关注了这个问题,针对快速解码条件下语音检索系统召回率不足的问题,从优化索引形式角度入手,提出新的语音识别输出形式,尽可能多地保留语音识别解码过程中搜索空间的活跃词假设,以提高语音检索系统的召回率。提出了非限制词图扩展的算法来保留在剪枝中被剪掉但是可能含有一定信息量的路径。此方法是去除词图中N元语言模型的限制来重新构建非限制词图。在两个中文测试集上,对比了非限制词图与传统的N元词图的性能,在各项指标上,非限制词图比N元词图性能有比较大的改善。

语音检索 关键词系统 非限制词图 N元语言模型

张震

中国科学院语言声学与内容理解重点实验室

国内会议

中国科学院声学研究所第四届青年学术交流会

北京

中文

306-309

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)