会议专题

面向智能手机语音识别应用的汉语语音数据库

  本文介绍了面向智能手机语音识别技术应用的大规模汉语语音数据库,本数据库也可以作为 训练和测试样本用于语音识别的研究与产品化。考虑到实际应用场景,本数据库共采集1200人语音,每人分别在安静和噪声环境下以朗读、自由回答等方式录制150句,语料内容涵盖手机应用的各种情况,每份语料各不相同,同时手机设备覆盖目前主流的四款智能手机操作平台,并且对发音人性别、年龄、方言区进行了很好的均衡。除语音文件外,本数据库对多种噪声进行了详尽的转写标注,提取并校对了囊括了词频和拼音信息的汉语发音字典。

智能手机 语音识别 数据库构建 数理语言学

郝玉峰 程显峰 李科

北京海天瑞声科技有限公司,北京 100098

国内会议

第十一届全国人机语音通讯学术会议

西安

中文

1-4

2011-10-16(万方平台首次上网日期,不代表论文的发表时间)