基于simhash的密文同义词检索方法

本文在现有加密搜索方案的基础上,通过对明文同义词检索算法的研究,提出一个支持同义词检索的密文模糊检索方案。本文同时对simhash进行改进,使其适用于少数单词的环境,然后将改进的simhash引入到现有方案中,提高了现有方案的检索效率。为了解决现有的密文检索方案计算量过大,无法支持同义词检索等问题.通过对现有明文同义词检索方案和传统密文检索方案的研究,在安全KNN(K - Nearest Neighbour)方案的基础上提出一个支持同义词检索的密文模糊检索方法.通过改进的simhash算法提高了安全KNN方案的效率. 在本文中,为了解决支持同义词的模糊检索问题,例如使用“IEEE”来检索“Institute for Electrical and Electronic Engineers”相关的文档,提出一个基于同义词转换的模糊检索方案,在索引生成阶段,对关键词进行同义词转换,使在查询阶段能够检索到用户提交的查询关键词的同义词结果。使用ASPE方案对索引项和检索向量进行加密,以支持向量间的内积计算,但是ASP方案基于欧几里德空间,只能对长度相近的关键词进行匹配。为了能够使ASPE方案不受关键词长度的影响,在现有的文本simhash方案基础上提出一个针对较少关键字的simhash方案,使得ASPE方案不受关键词长度的影响,从而进一步实现基于同义词扩展的密文检索方案。从实验中可以看出,本文提出的方案虽然在效率上提高较大,但是相比于ASPE方案,在用户提交的关键词数量少于3个的时候,查询精确度较低。在以后的工作中,将进一步对支持关键词的simhash算法进行改进,使其能更好的表现关键词之间的相似度,提升查询的精确度,使用户在输入单个关键词的时候,也能将符合要求的结果在 集中在结果集合中的最前面。
加密搜索 同义词 检索算法 simhash算法 精确度
国内会议
湖北恩施
中文
1-7
2014-09-13(万方平台首次上网日期,不代表论文的发表时间)