会议专题

WEB 音频自动分类的研究

  为方便互联网数据的检索,根据复杂音频数据的特点,本文采用同一种特征参数----Mel频率倒谱系数及其动态参数将互联网上的才艺表演音频数据集分类为纯语音类节目、纯乐器类节目、配乐朗诵类节目、歌唱类节目及其他。由该特征参数的特点以及各类表演音频之间的差异,提出一种特征筛选及模型训练的多级二分类音频分类方法,即先对各级音频数据的特征进行选择,然后再用选择后的特征对GMM进行训练。对测试数据的实验结果表明,该方法能使特征维数减少且分类正确率有所提高。

语音处理 音频分类 GMM模型 数理语言学

杨靓 苗振江

北京交通大学 信息科学研究所,北京 100044 现代信息科学与网络技术北京市重点实验室,北京 100044

国内会议

第十一届全国人机语音通讯学术会议

西安

中文

1-4

2011-10-16(万方平台首次上网日期,不代表论文的发表时间)