会议专题

电话语音数据的幂律分布特性

数据的幂律分布特性广泛见诸于自然语言处理以及网络挖掘等领域,并被应用于相应领域研究,取得了一定的实际效果.本文研究了电话语音数据MFCC参数的幂律分布特性.通过提取大量语音数据的MFCC参数,将提取的所有参数映射到一个码本上面进行码字频率统计,发现其中少量的码字大量出现,而大量的码字只出现了很少的次数甚至没有出现.此外,将所有MFCC参数进行聚类,然后参照“词袋”模型将每个语音表征为这些聚类中心的直方图统计,发现对任何一个语音而言,其直方图中大量分量是为0的,只有少部分的分量是有非零值的.即电话语音数据的分布具有幂律分布的特性.

电话语音 幂律分布特性 特征参数 码本映射

仇浩文 筱雪

中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190 北京市科学技术情报研究所 北京 100048

国内会议

第二十七届全国计算机信息管理学术研讨会

吉林延吉

中文

179-185

2013-09-01(万方平台首次上网日期,不代表论文的发表时间)