会议专题

一种基于高斯混合模型的不确定数据流聚类方法

传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求.本文使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好的利用存储空间,完成对真实情况的逼近,并提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro,该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题.通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、Tau值下的聚类结果.最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势.

不确定数据流 聚类算法 运行效率 计算精度 高斯混合模型

曹振丽 孙瑞志 李勐

农业部农业信息获取技术重点实验室 北京100083;中国农业大学烟台研究院 烟台264670 农业部农业信息获取技术重点实验室 北京100083

国内会议

第二届CCF大数据学术会议

北京

中文

1-10

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)