汉语话语音节时长统计分析
汉语的时长特征在孤立音节或实验室语料的研究结果较多,如冯隆,齐士钤等,基于实际语流的研究,除石基琳外,很少看到研究结果发表.汉语音节作为基本的合成单元在目前的主流型汉语合成系统中形成定势.音节时长又是普通听众语音感知中很敏感的声学参数,研究实际语流中汉语音节时长的变化特点,发掘它变化的原因,是汉语韵律特征研究的主题之一,也是言语工程技术上普遍关注的热点.本文在大规模语料库的基础上对实际语流中汉语音节时长进行了全面的统计分析,微软中国研究院汉语语料库是本研究的基础.通过对19万个音节时长的统计分析,首次得到了实际语流中汉语音节时长的总体分布图,以及汉语音节时长诸多方面的统计特性,包括韵律边界、音节的声、韵、调结构以及音节在词中的位置对音节时长的影响等.其中韵律边界包括韵律词边界、韵律短语边界、语调短语边界.统计结果表明韵律短语边界、语调短语边界和语调短语群边界对音节时长有明显的延长效果,并发现虽然在这三种边界前音节延长的程度略有差别,但从统计上看没有质的区别.同时发现不同声调对边界前音节延长作用也不同,轻声受边界的影响最大,它可以延长到非轻声、非边界前音节几乎同样的长度,其次是阳平,上声受影响最小.本文报告语料库的基本信息,停顿感知的标注、声学参数的提取和数据处理的方法,以及主要的研究结果等.对与已有的研究结果不同的地方,和它在汉语合成技术中的应用做出讨论.研究虽然是对一位广播学院的女生,按新闻朗读风格录制言语材料做出的,但具有一定的普遍意义.由于对语料库进行重音标注的复杂性,本文未能涉及重音对时长影响的研究,这将是我们下一步工作的内容.
汉语 音节时长 统计分析
冯勇强 初敏 贺琳 吕士楠
中国科学院声学研究所 微软中国研究院
国内会议
北京
中文
66-69
2001-08-30(万方平台首次上网日期,不代表论文的发表时间)