joegreen0991/hyperloglog

一个具有最小哈希数据结构的超对数库,用于计数基数。支持并集和交集

v1.0.0 2014-07-10 09:55 UTC

This package is not auto-updated.

Last update: 2024-09-24 07:24:37 UTC


README

PHP实现的HyperLogLog算法。基于Antirez/Redis实现。参考Antirez/Redis实现。

资源

注意!

此版本已调整,以与P值为14的P值一起工作。这是一个2^14字节(16KB)的寄存器大小

在下图中可以观察到较大的偏差,这始于集合基数达到大约2^P * 2.5时。已经使用多项式回归计算偏差偏移量,但仅限于P = 14。您可以自由更改P值,但不会应用偏差偏移量。查看代码以获取更多信息

一些专业的图表

####HyperLogLog

P=14 HyperLogLog P = 14

P=16 注意大约2.5 * 2^16 ~= 165,000的偏移偏差 HyerLogLog P = 16

P=20 注意大约2.5 * 2^20 ~= 2,600,000的偏移偏差 HyerLogLog P = 20

####MinHash

K=8192 MinHash K = 8129