Hyperloglog 通常用于查找非常大的数据集的基数。如果您想查找数据集中的唯一值数量或基数,则处理此查询所需的时间与数据集的大小成正比。因此,如果您想查找仅包含 20 个条目的数据集的基数,则计算速度会非常快。但是,查找包含 2000 万个条目的数据集的基数可能需要大量时间和计算资源。

Hyperloglog 不计算数据集的精确基数,而是估计唯一值的数量。它通过将原始数据转换为代表数据集基数的随机数哈希来实现这一点。这不是基数的完美计算,但通常在 2% 的误差范围内。

Hyperloglog 在时序数据上的优势在于,它可以随着数据集随时间变化而继续计算数据集的近似基数。它通过在检索新数据时向 hyperloglog 哈希添加条目来实现这一点,而不是每次需要时都重新计算整个数据集的结果。这使其成为与连续聚合一起使用的理想选择。

有关近似去重计数 API 调用的更多信息,请参阅超级函数 API 文档

关键词

在此页面上发现问题?报告问题 或 在 GitHub 上编辑此页面