基于VP树结构的多层匹配算法在哼唱识别中的应用
哼唱识别是音频检索的一个重要应用,其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法,将音频歌曲集用手工标注方法提取主旋律并且按自然演唱停顿方式进行分段,采用段落结构而不是整首歌作为索引。同时,提出了一种基于VP树的搜索结构以及相应的多级搜索算法,在快速匹配层采用粗搜索算法,在精确匹配层采用基于动态时间规整算法。实验证明,在对检出率影响不大的前提下,识别速度提高了40”%”以上。
哼唱识别 VP树结构 动态时间规整 多层匹配 多级搜索
侯珏 刘轶 郑方 蒋丹宁 秦勇 程刚 刘勇
清华大学信息技术研究院语音和语言技术中心,北京,100084 IBM中国研究院,北京,100094 深港产学研基地产业发展中心,深圳,518057
国内会议
乌鲁木齐
中文
1-6
2009-08-14(万方平台首次上网日期,不代表论文的发表时间)