会议专题

基于检测熵变化趋势的音频特征跳变点检测

广播电视新闻的分割是指根据不同种类的语音的声学特征的不同,把一段连续的音频新闻按照说话人身份的不同、背景噪音的不同、说话通道的不同和背景音乐的不同等,划分成各个独立的音频数据段,然后抛弃掉与语音信息无关的音乐和噪音部分,最后把同一个人或是同一类人的音频数据划分为一类,为广播语音的识别以及以后的音频数据检索做准备.本文的广播电视新闻的分割系统为三部分:分割、分类和聚类.分割部分是采用本文提出的基于检测变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割.这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误.分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,实现语音信号和背景音乐的正确区分以及男女性别标注;聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类.把系统应用于三段30分钟的新闻,基于检测熵变化趋势的分割算法以很高的精度实现了音频信号的跳变点检测,检测到的信号声学特征跳变点总跳变点数目的98﹪,为以后的分割和分类打下了良好的基础;在分割部分和正确分割的基础上,分类部分成功的实现了所有背景音乐和背景噪音的去除,男妇性别的标注的准确率达到96﹪,聚类部分成功的实现了说话人的正确分类,聚类的正确率达到87﹪.

语音信息 熵信息 音频特征 语音识别

贾磊 徐波

中国科学院自动化所模式识别国家重点实验室

国内会议

第六届全国人机语音通讯学术会议

深圳

中文

19-24

2001-11-20(万方平台首次上网日期,不代表论文的发表时间)