电话语音数据的幂律分布特性
数据的幂律分布特性广泛见诸于自然语言处理以及网络挖掘等领域,并被应用于相应领域研究,取得了一定的实际效果.本文研究了电话语音数据MFCC参数的幂律分布特性.通过提取大量语音数据的MFCC参数,将提取的所有参数映射到一个码本上面进行码字频率统计,发现其中少量的码字大量出现,而大量的码字只出现了很少的次数甚至没有出现.此外,将所有MFCC参数进行聚类,然后参照“词袋”模型将每个语音表征为这些聚类中心的直方图统计,发现对任何一个语音而言,其直方图中大量分量是为0的,只有少部分的分量是有非零值的.即电话语音数据的分布具有幂律分布的特性.
电话语音 幂律分布特性 特征参数 码本映射
仇浩文 筱雪
中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190 北京市科学技术情报研究所 北京 100048
国内会议
吉林延吉
中文
179-185
2013-09-01(万方平台首次上网日期,不代表论文的发表时间)