redis的分布式布隆过滤器

实际项目中也会遇到类似的问题，如垃圾邮件过滤、网络爬虫重复url检测等，本质就是判断数据存不存在一个大的集合中。

那如何去解决呢？这就是我们今天老顾要介绍的布隆过滤器方案，我们继续往下看。

#布隆过滤器

布隆过滤器是一种类似set的数据结构，只是不太准确，当判断元素是否存在时返回结果存在但真实不一定存在；当返回不存在时肯定是不存在，所以判断去重时有一定的误判概率。

当然，误判只会发生在过滤器没有添加过的元素，对于添加过的元素不会发生误判。

特点：高效地插入和查询，占用空间少，返回的结果是不确定性的。

#布隆过滤器原理

这个是由柏顿.布隆在1970年提出，用很小的空间，解决上述的类似问题。

实现原理就是我们需要一个很长的二进制数组（也叫向量）；在添加数据时，使用多个hash函数对key进行hash运算得到一个索引值（即二进制数组的索引值）

上图中，下面是很长的二进制数组，第二层就是多个hash函数，再上面就是数据。

上图中，每个数据经过多个hash函数计算，得到索引值，并把二进制数组对应的索引值那边设置为1，我们发现经过三次hash，就会在三个索引的地方设置为1，也就是代表此数据存在。

#布隆过滤器误差

空间占用

布隆过滤器的空间占用有一个简单的计算公式，但推导比较繁琐。布隆过滤器有两个参数，预计元素数量n，错误率f，公式得到两个输出，位数组长度L（即存储空间大小bit），hash函数的最佳数量k。

k = 0.7*(1/n)
f = 0.6185^(L/n)

实际元素超出时

以上小伙伴们只要知道会存在误差就行了，不需要强求是怎么计算的。

#Redis布隆过滤器的基本使用

在Redis中，布隆过滤器有两个基本命令，分别是：

bf.add：添加元素到布隆过滤器中，类似于集合的sadd命令，不过bf.add命令只能一次添加一个元素，如果想一次添加多个元素，可以使用bf.madd命令。
bf.exists：判断某个元素是否在过滤器中，类似于集合的sismember命令，不过bf.exists命令只能一次查询一个元素，如果想一次查询多个元素，可以使用bf.mexists命令。

#布隆过滤器的高级使用

上面的例子中使用的布隆过滤器只是默认参数的布隆过滤器，它在我们第一次使用 bf.add 命令时自动创建的。Redis还提供了自定义参数的布隆过滤器，想要尽量减少布隆过滤器的误判，就要设置合理的参数。

在使用 bf.add 命令添加元素之前，使用bf.reserve 命令创建一个自定义的布隆过滤器。bf.reserve命令有三个参数，分别是：

比如：

如果对应的key已经存在时，在执行bf.reserve命令就会报错。如果不使用bf.reserve命令创建，而是使用Redis自动创建的布隆过滤器，默认的error_rate是 0.01，capacity是 100。

f.reserve命令创建，而是使用Redis自动创建的布隆过滤器，默认的error_rate是 0.01，capacity是 100。