会议专题

基于最大熵的异构数据哈希方法

最近基于哈希的近邻检索得到了广泛关注,基于哈希的检索首先将原始数据快速映射成一个固定长度的0-1串,然后用这个0-1串进行检索,大大提高了检索速度.以往的工作大多是基于同质数据之间的检索,比如用文字搜索文字,但是互联网上的数据是多种类型的,即异构的,比如图片、文字、视频等,因而在异构数据上进行检索也是一个很迫切的需求.基于哈希的异构数据上的检索,重点在于如何将异构数据哈希才能有利于检索,采用同质数据哈希的思路,如果同类数据中的2个样本相似,它们的哈希值应该相近,不同类的2个样本如果是同一实体的两种不同形式,那么它们的哈希值应该相近.有一些前人的工作研究的是基于哈希的异构数据上的检索,但是他们的工作仅仅是保证原始样本的相似度在哈希值上的体现,这个保证是基于提高哈希结果的召回率,使检索到的结果,即哈希值相近的样本尽可能在原始空间上相似,而没有对召回样本的准确率进行考虑,在检索问题中如果召回的样本太多,即使正例全部返回也是无意义的.提出了一种新方法MEHASH,在保证哈希结果召回率的同时,即相似度保证,通过最大化哈希结果的熵,使哈希结果尽可能随机,减少召回样本数量,间接提高了准确率.该方法可以有效地在准确率和召回率之间达到平衡,为了验证MEHASH算法的有效性,利用2个公开的数据集,即wiki和NUS WIDE进行了实验,实验表明,算法的mAP指标要优于前人提出的方法.

异构数据 近邻检索 哈希值

陈敏 李建中

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001

国内会议

第31届中国数据库学术会议

太原

中文

1-8

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)