大数据之博大精深
大数据从结构上可以分为结构化数据、半结构化数据和非结构化数据,大数据是多来源多类型的。关于大数据的结构化、半结构化、非结构化,有的要求是实时性的,有的要求是非实时性的,它们处理的速度要求是不一样的,非结构化是指不能用表格来表示的数据。大数据需要的数据量很大,当数据量较少的时候,采用的矩阵储存聚类分析的误差较大,只有当数据大于一定量的时候才可以用。大数据有助于提高分析精度和速度,大数据的分析不仅需要大量的数据,还需要建立模型。例如语音识别,在特征提取后,采用GMM静态概率模型描述发音的不确定性,采用HMM动态概率模型描述发音的时序特性,然后用数据来训练模型和优化模型参数,数据越大训练的效果越好。现在利用GPU可模拟超大型人工神经网络,最近百度、谷歌在这方面都取得较好的进展。
大数据分析 数据结构 静态概率模型 人工神经网络
邬贺铨
中国工程院
国内会议
贵阳
中文
100-104
2016-04-01(万方平台首次上网日期,不代表论文的发表时间)