局部敏感哈希(Locality-SensitiveHashing,LSH)方法介绍本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-SensitiveHashing,LSH),内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。一、局部敏感哈希LSH在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集,我们通过线性查找(LinearSearch)就可以容易解决,但如果是对一个海量的高维数据集采用线性查找匹配的话,会非常耗时,因此,为了解决该问题,我们需要采用一些类似索引的技术来加快查找过程,通常这类技术称为最近邻查找(NearestNeighbor,AN),例如K-dtree;或近似最近邻查找(ApproximateNearestNeighbor,ANN),例如K-dtreewithBBF,RandomizedKd-trees,HierarchicalK-meansTree。而LSH是ANN中的一类方法。我们知道,通过建立HashTable的方式我们能够得到O(1)的查找时间性能,其中关键在于选取一个hashfunction,将原始数据映射到相对应的桶内(bucket,hashbin),例如对数据求模:h=xmodw,w通常为一个素数。在对数据集进行hash的过程中,会发生不同的数据被映射到了同一个桶中(即发生了冲突collision),这一般通过再次哈希将数据映射到其他空桶内来解决。这是普通Hash方法或者叫传统Hash方法,其与LSH有些不同之处。局部敏感哈希示意图(from:PiotrIndyk)LSH的基本思想是:将原始数据空间中的两个相邻数据点通过相同的映射或投影变换(projection)后,这两个数据点在新的数据空间中仍然相邻的概率很大,而不相邻的数据点被映射到同一个桶的概率很小。也就是说,如果我们对原始数据进行一些hash映射后,我们希望原先相邻的两个数据能够被hash到相同的桶内,具有相同的桶号。对原始数据集合中所有的数据都进行hash映射后,我们就得到了一个hashtable,这些原始数据集被分散到了hashtable的桶内,每个桶会落入一些原始数据,属于同一个桶内的数据就有很大可能是相邻的,当然也存在不相邻的数据被hash到了同一个桶内。因此,如果我们能够找到这样一些hashfunctions,使得经过它们的哈希映射变换后,原始空间中相邻的数据落入相同的桶内的话,那么我们在该数据集合中进行近邻查找就变得容易了,我们只需要将查询数据进行哈希映射得到其桶号,然后取出该桶号对应桶内的所有数据,再进行线性匹配即可查找到与查询数据相邻的数据。换句话说,我们通过hashfunction映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,显然计算量下降了很多。那具有怎样特点的hashfunctions才能够使得原本相邻的两个数据点经过hash变换后会落入相同的桶内?这些hashfunction需要满足以下两个条件:1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;其中d(x,y)表示x和y之间的距离,d1d2,h(x)和h(y)分别表示对x和y进行hash变换。满足以上两个条件的hashfunctions称为(d1,d2,p1,p2)-sensitive。而通过一个或多个(d1,d2,p1,p2)-sensitive的hashfunction对原始数据集合进行hashing生成一个或多个hashtable的过程称为Locality-sensitiveHashing。使用LSH进行对海量数据建立索引(Hashtable)并通过索引来进行近似最近邻查找的过程如下:1.离线建立索引(1)选取满足(d1,d2,p1,p2)-sensitive的LSHhashfunctions;(2)根据对查找结果的准确率(即相邻的数据被查找到的概率)确定hashtable的个数L,每个table内的hashfunctions的个数K,以及跟LSHhashfunction自身有关的参数;(3)将所有数据经过LSHhashfunction哈希到相应的桶内,构成了一个或多个hashtable;2.在线查找(1)将查询数据经过LSHhashfunction哈希得到相应的桶号;(2)将桶号中对应的数据取出;(为了保证查找速度,通常只需要取出前2L个数据即可);(3)计算查询数据与这2L个数据之间的相似度或距离,返回最近邻的数据;LSH在线查找时间由两个部分组成:(1)通过LSHhashfunctions计算hash值(桶号)的时间;(2)将查询数据与桶内的数据进行比较计算的时间。因此,LSH的查找时间至少是一个sublinear时间。为什么是“至少”?因为我们可以通过对桶内的属于建立索引来加快匹配速度,这时第(2)部分的耗时就从O(N)变成了O(logN)或O(1)(取决于采用的索引方法)。LSH为我们提供了一种在海量的高维数据集中查找与查询数据点(querydatapoint)近似最相邻的某个或某些数据点。需要注意的是,LSH并不能保证一定能够查找到与querydatapoint最相邻的数据,而是减少需要匹配的数据点个数的同时保证查找到最近邻的数据点的概率很大。二、LSH的应用LSH的应用场景很多,凡是需要进行大量数据之间的相似度(或距离)计算的地方都可以使用LSH来加快查找匹配速度,下面列举一些应用:(1)查找网络上的重复网页互联网上由于各式各样的原因(例如转载、抄袭等)会存在很多重复的网页,因此为了提高搜索引擎的检索质量或避免重复建立索引,需要查找出重复的网页,以便进行一些处理。其大致的过程如下:将互联网的文档用一个集合或词袋向量来表征,然后通过一些hash运算来判断两篇文档之间的相似度,常用的有minhash+LSH、simhash。(2)查找相似新闻网页或文章与查找重复网页类似,可以通过hash的方法来判断两篇新闻网页或文章是否相似,只不过在表达新闻网页或文章时利用了它们的特点来建立表征该文档的集合。(3)图像检索在图像检索领域,每张图片可以由一个或多个特征向量来表达,为了检索出与查询图片相似的图片集合,我们可以对图片数据库中的所有特征向量建立LSH索引,然后通过查找LSH索引来加快检索速度。目前图像检索技术在最近几年得到了较大的发展,有兴趣的读者可以查看基于内容的图像检索引擎的相关介绍。(4)音乐检索对于一段音乐或音频信息,我们提取其音频指纹(AudioFingerprint)来表征该音频片段,采用音频指纹的好处在于其能够保持对音频发生的一些改变的鲁棒性,例如压缩,不同的歌手录制的同一条歌曲等。为了快速检索到与查询音频或歌曲相似的歌曲,我们可以对数据库中的所有歌曲的音频指纹建立LSH索引,然后通过该索引来加快检索速度。(5)指纹匹配一个手指指纹通常由一些细节来表征,通过对比较两个手指指纹的细节的相似度就可以确定两个指纹是否相同或相似。类似于图片和音乐检索,我们可以对这些细节特征建立LSH索引,加快指纹的匹配速度。三、LSHfamily我们在第一节介绍了LSH的原理和LSHhashfunction需要满足的条件,回顾一下:满足以下两个条件的hashfunctions称为(d1,d2,p1,p2)-sensitive:1)如果d(x,y)≤d1,则h(x)=h(y)的概率至少为p1;2)如果d(x,y)≥d2,则h(x)=h(y)的概率至多为p2;d(x,y)是x和y之间的一个距离度量(distancemeasure),需要说明的是,并不是所有的距离度量都能够找到满足locality-sensitive的hashfunctions。下面我们介绍一些满足不同距离度量方式下的locality-sensitive的hashfunctions:1.JaccarddistanceJaccarddistance:(1-Jaccardsimilarity),而Jaccardsimilarity=(AintersectionB)/(AunionB),Jaccardsimilarity通常用来判断两个集合的相似性。Jaccarddistance对应的LSHhashfunction为:minhash,其是(d1,d2,1-d1,1-d2)-sensitive的。2.HammingdistanceHammingdistance:两个具有相同长度的向量中对应位置处值不同的次数。Hammingdistance对应的LSHhashfunction为:H(V)=向量V的第i位上的值,其是(d1,d2,1-d1/d,1-d2/d)-sensitive的。3.CosinedistanceCosinedistance:cos(theta)=A·B/|A||B|,常用来判断两个向量之间的夹角,夹角越小,表示它们越相似。Cosinedistance对应的LSHhashfunction为:H(V)=sign(V·R),R是一个随机向量。V·R可以看做是将V向R上进行投影操作。其是(d1,d2,(180-d1)180,(180-d2)/180)-sensitive的。理解:利用随机的超平面(randomhyperplane)将原始数据空间进行划分,每一个数据被投影后会落入超平面的某一侧,经过多个随机的超平面划分后,原始空间被划分为了很多cell,而位于每个cell内的数据被认为具有很大可能是相邻的(即原始数据之间的cosinedistance很小)。4.normalEuclideandistanceEuclideandistance是衡量D维空间中两个点之间的距离的一种距离度量方式。Euclideandistance对应的LSHhashfunction为:H(V)=|V·R+b|/a,R是一个随机向量,a是桶宽,b是一个在[0,a]之间均匀分布的随机变量。V·R可以看做是将V向R上进行投影操作。其是(a/2,2a,1/2,1/3)-sensitive的。理解:将原始数据空间中的数据投影到一条随机的直线(randomline)上,并且该直线由很多长度等于a的线段组成,每一个数据被投影后会落入该直线上的某一个线段上(对应的桶内),将所有数据都投影到直线上后,位于同一个线段内的数据将被认为具有很大可能是相邻的(即原始数据之间的Euclideandistance很小)。四、增强LSH(AmplifyingLSH)通过LSHhashfunctions我们能够得到一个或多个hashtable,每个桶内的数据之间是近邻的可能性很大。我们希望原本相邻的数据经过LSHhash后,都能够落入到相同的桶内,而不相邻的数据经过LSHhash后,都能够落入到不同的桶中。如果相邻的数据被投影到了不同的桶内,我们称为falsenegtive;如果不相邻的数据被投影到了相同的桶内,我们称为falsepositive。因此,我们在使用LSH中,我们希望能够尽量降低falsenegtiverate和falsepositiverate。通常,为了能够增强LSH,即使得falsenegtiverate和/或falsepositiverate降低,我们有两个途径来实现:1)在一个hashtable内使用更多的LSHhashfunction;2)建立多个hashtable。下面介绍一些常用的增强LSH的方法:1.使用多个独立的hashtable每个hashtable由k个LSHhashfunction创建,每次选用k个LSHhashfunction(同属于一个LSHfunctionfamily)