会议专题

基于KL距离的离散概率分布相似性连接

相似性连接是一种重要的数据库操作,也是数据挖掘中的基本操作.不同对象的相似性连接有不同的算法.在计算机研究领域中,很多特征被表示为离散概率分布.KL距离是衡量离散概率分布的一般方法.提出了基于KL距离的离散概率分布相似性连接问题.为了避免计算KL距离中出现的大量对数运算,提出了KL下界距离的概念,并提出了基于KL下界距离过滤的嵌套循环相似性连接、基于KL下界距离过滤的索引嵌套循环相似性连接2种算法.然后用实验说明了它们在算法效率上相对传统算法有很大提升.

数据库 相似性连接 离散概率分布 相对熵

金鑫 孙建伶

浙江大学计算机科学与技术学院 杭州 310027

国内会议

第31届中国数据库学术会议

太原

中文

220-225

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)