600字范文 > minhash算法检索相似文本_文本相似度算法之-minhash

minhash算法检索相似文本_文本相似度算法之-minhash

时间：2022-03-10 07:23:33

在做文本去重任务时其实有很多中方法可供选择，譬如，对文章分词，两两对比词集合的jaccard系数，但是当遇到大规模文本去重时，这种方法的效率就太低了，接下来介绍一种大规模文本去重算法minhash。

什么是minhash？

什么是minhash呢，他跟传统的hash算法有什么区别呢，要理解这个问题，我们就要是知道hash是什么，简单理解hash就是将不同长度规则的文本转化成相同长度的字符串，用这些相同长度的字符串来表示原文本。但是传统hash存在一个问题是，相同内容的文本会生成相同的hash，但是相似的文本(可能就是一个字的差别)生成的hash会有很大的不同。但是我们在做文本相似度时，希望对相似的文本生成相似的hash，这样我们只需要计算一个个特定长度的hash值之间相似度，就可以近似得到原文本之间的相似度了，显然传统的hash算法是做不到这一点的。

怎么生成hash？

针对这个问题我们就要设计一种hash算法，让相似的文本生成相似的hash值。那在minhash算法中是怎么生成hash的呢？

假设我们这里有三个文本(假设a、b、c、d是四个不同的词):

S1 = abcd

S2 = bcd

S3 = ad

我们用一个特征矩阵来表示比较直观一点：

可以用如下3步来简单理解如何生成hash：

1)将行随机打乱。

2)行打乱后，针对每个S1、S2、S3看第一个1所在的行号，这个行号就是这个集合的最小哈希值。

3)设定hash的大小，如果是N，则重复上述步骤，随机进行N次行打乱，得到N个最小哈希值，那么这N个最小哈希值组成的集合就是S1、S2、S3对应的哈希签名。

为什么要进行行变换使用第一个1所在的行号作为最小哈希值呢，这样生成的哈希有什么意义呢？