基于KL距离的离散概率分布相似性连接
相似性连接是一种重要的数据库操作,也是数据挖掘中的基本操作.不同对象的相似性连接有不同的算法.在计算机研究领域中,很多特征被表示为离散概率分布.KL距离是衡量离散概率分布的一般方法.提出了基于KL距离的离散概率分布相似性连接问题.为了避免计算KL距离中出现的大量对数运算,提出了KL下界距离的概念,并提出了基于KL下界距离过滤的嵌套循环相似性连接、基于KL下界距离过滤的索引嵌套循环相似性连接2种算法.然后用实验说明了它们在算法效率上相对传统算法有很大提升.
数据库 相似性连接 离散概率分布 相对熵
金鑫 孙建伶
浙江大学计算机科学与技术学院 杭州 310027
国内会议
太原
中文
220-225
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)