会议专题

基于对称KL散度的符号大数据动态聚类算法

区间符号数据目前已经在数据表达与数据处理中有着广泛而实际应用,特别是在数据挖掘、人工智能这些新兴领域.本文定义了一个基于KL散度的相似性度量,希望尽可能的利用区间符号数据的内部信息,而不是仅仅利用其边界值,并将这一新的相似性度量方法用于动态聚类算法中.为了评估这个聚类算法的优越性,文中通过仿真数据和真实公交数据分别进行了实验,并将这一新的度量方法与其他三种相似性度量(Hausdorff距离、City-block距离和Wasserstein距离)比较.仿真生成的数据通过各种不同的分布来体现原始类别的差异,并引入ARI这一指标来衡量每种相似性度量下的聚类效果.由于ARI指标对聚类算法中的度量定义不敏感,所以能够客观地给出效果评价.仿真生成的数据的实验结果很好地说明了基于KL散度的相似性度量比其他三种度量方法有着更高的聚类准确度.最后,文中把这一度量方法用于真实的公交车站点数据,采用基于路况相似性的方法来预测公交车的到站时间,并且和其他度量方法比较最终的预测准确度.真实数据实验的结果也表明这一新的相似性度量方法比现存的三种方法有着更好的表现.

符号数据 动态聚类算法 预测准确度 KL散度

陆一潇 潘常春 白杰 杨根科

上海交通大学自动化系,北斗导航与位置服务上海市重点实验室,上海,中国,200240 上海交通大学自动化系,系统控制与信息处理教育部重点实验室,上海,中国,200240

国内会议

第八届中国卫星导航学术年会

南京

中文

1-5

2017-05-23(万方平台首次上网日期,不代表论文的发表时间)