基于统计模型的哼唱旋律识别算法
本文提出了一种基于统计模型的哼唱旋律识别算法。与传统的非统计算法相比,本文所提出的算法借用连续语音识别中的统计框架及模型,具有较好的鲁棒性。在声学模型方面,采用了高阶倒谱系数作为特征,避免了清浊判定及基频估计错误对系统性能的负面影响。同时,训练了调无关的四元模型以反映音乐先验知识。旋律识别结果最终通过Viterbi 解码算法获得。论文分别从音符识别错误率和哼唱查询系统整体性能的角度给出了算法评测结果,并与其他三个先进的旋律识别系统进行了比较。实验表明,本文所提出的算法在含噪条件下具有最好的鲁棒性,同时在干净数据上的性能接近所有比较系统中的最好结果。
语音信号处理 旋律识别 哼唱查询 统计模型
蒋丹宁 秦勇 刘文 刘义
IBM 中国研究院,北京,100094
国内会议
安徽黄山
中文
2007-10-21(万方平台首次上网日期,不代表论文的发表时间)