freq_agg() 和 mcv_agg() 函数

工具包TimescaleDB 工具包函数在 Timescale 社区版中可用。它们已自动包含在 Timescale 中，但对于自托管的 TimescaleDB，必须单独安装。点击了解更多信息。

Timescale Cloud：性能、扩展性、企业级

自托管产品

MST

获取集合中最常见的元素及其相对频率。该估算使用 SpaceSaving 算法。

这组函数包含两个聚合函数，它们允许您以不同方式设置跟踪值的截止点。freq_agg 允许您指定最小频率，而 mcv_agg 允许您指定要保留的目标值数量。

要估算某个值出现的绝对次数，请使用 count_min_sketch。

此组中的函数

警告

此函数组包含一些实验性函数。实验性函数在未来的版本中可能会更改或删除。我们不建议在生产环境中使用它们。实验性函数标有“**实验性**”标签。

freq_agg: 实验性将数据聚合到空间节省聚合中，以进行进一步的频率分析

mcv_agg: 将数据聚合到空间节省聚合中，以进一步计算最频繁的值

into_values: 从空间节省聚合中获取所有频率估算的表
max_frequency: 获取空间节省聚合中给定值的估算频率上限
min_frequency: 获取空间节省聚合中给定值的估算频率下限
topn: 从空间节省聚合中获取前 N 个最常见的值

rollup: 合并多个频率聚合

函数详情

freq_agg(
  min_freq DOUBLE PRECISION,
  value AnyElement
) RETURNS SpaceSavingAggregate

将数据聚合到空间节省聚合对象中，该对象以中间形式存储频率信息。然后，您可以使用此组中的任何访问器来返回估算的频率或最常见的元素。

必填参数

名称	类型	描述
`min_freq`	`DOUBLE PRECISION`	用于跟踪值的频率截止点。出现频率低于截止点的值将不予存储。
`value`	`AnyElement`	要存储频率的列

列	类型	描述
`agg`	`SpaceSavingAggregate`	一个对象，存储给定表中最常见的元素及其估算的频率。您可以将此对象传递给任何访问器函数以获取最终结果。

示例

在 `HomeSales` 表的 `ZIP` 字段上创建一个空间节省聚合。此聚合跟踪任何在至少 5% 的行中出现的 `ZIP` 值


SELECT toolkit_experimental.freq_agg(0.05, ZIP) FROM HomeSales;

mcv_agg (
    n INTEGER,
    value AnyElement
    [, skew DOUBLE PRECISION]
) RETURNS SpaceSavingAggregate

将数据聚合到空间节省聚合中，该聚合以中间形式存储频率信息。然后，您可以使用此组中的任何访问器来返回估算的频率或最常见的元素。

这与 freq_agg 的不同之处在于，您可以指定要保留的目标值数量，而不是频率截止点。

必填参数

名称	类型	描述
`n`	`INTEGER`	最频繁值的目标数量
`value`	`AnyElement`	要存储频率的列

可选参数

名称	类型	描述
`skew`	`DOUBLE PRECISION`	数据的估算偏度，定义为 zeta 分布的 `s` 参数。必须大于 `1.0`。默认为 `1.1`。有关更多信息，请参阅关于偏度的部分。

列	类型	描述
`agg`	`SpaceSavingAggregate`	一个对象，存储给定表中最常见的元素及其估算的频率。您可以将此对象传递给任何访问器函数以获取最终结果。

示例

在 `users` 表的 `country` 列上创建一个 topN 聚合。目标是前 10 个最频繁的值


SELECT mcv_agg(10, country) FROM users;

在 `devices` 表的 `type` 列上创建一个 topN 聚合。估算数据偏度为 1.05，目标是 5 个最频繁的值


SELECT mcv_agg(5, 1.05, type) FROM devices;

into_values(
    agg SpaceSavingAggregate
) RETURNS (AnyElement, DOUBLE PRECISION, DOUBLE PRECISION)

将空间节省聚合中的数据作为表返回。该表列出了存储的值及其估算频率的最小和最大边界。

必填参数

名称	类型	描述
`agg`	`SpaceSavingAggregate`	使用 `freq_agg` 或 `mcv_agg` 创建的空间节省聚合

列	类型	描述
`value`	`AnyElement`	原始数据集中常见的值
`min_freq`	`DOUBLE PRECISION`	估算频率的最小边界
`max_freq`	`DOUBLE PRECISION`	估算频率的最大边界

max_frequency (
    agg SpaceSavingAggregate,
    value AnyElement
) RETURNS DOUBLE PRECISION

获取空间节省聚合中给定值的估算频率上限

必填参数

名称	类型	描述
`agg`	`SpaceSavingAggregate`	使用 `freq_agg` 或 `mcv_agg` 创建的空间节省聚合
`value`	`AnyElement`	要获取频率的值

列	类型	描述
`max_frequency`	`DOUBLE PRECISION`	该值估算频率的最大边界。如果该值的频率低于空间节省聚合的截止阈值，最大频率可能为 0。有关更多信息，请参阅 `freq_agg`。

示例

在 `value_test` 表中名为 `value` 的列中查找值 `3` 的最大频率


SELECT max_frequency(
    (SELECT mcv_agg(20, value) FROM value_test),
    3
);

min_frequency (
    agg SpaceSavingAggregate,
    value AnyElement
) RETURNS DOUBLE PRECISION

获取空间节省聚合中给定值的估算频率下限

必填参数

名称	类型	描述
`agg`	`SpaceSavingAggregate`	使用 `freq_agg` 或 `mcv_agg` 创建的空间节省聚合
`value`	`AnyElement`	要获取频率的值

列	类型	描述
`min_frequency`	`DOUBLE PRECISION`	该值估算频率的最小边界。如果该值的频率低于空间节省聚合的截止阈值，最小频率可能为 0。有关更多信息，请参阅 `freq_agg`。

示例

在 `value_test` 表中名为 `value` 的列中查找值 `3` 的最小频率


SELECT min_frequency(
    (SELECT mcv_agg(20, value) FROM value_test),
    3
);

topn (
    agg SpaceSavingAggregate,
    n INTEGER
) RETURNS AnyElement

从空间节省聚合中获取前 N 个最常见的值。空间节省聚合可以由 freq_agg 或 mcv_agg 创建。

必填参数

名称	类型	描述
`agg`	`SpacingsavingAggregate`	使用 `freq_agg` 或 `mcv_agg` 创建的空间节省聚合
`n`	`INTEGER`	要返回的值的数量。仅对频率聚合是必需的。对于前 N 聚合，默认为聚合自身的目标 N，并且对更高的 N 的请求将返回错误。在某些情况下，函数可能返回少于 N 个值。这可能发生在频率聚合不包含高于最小频率的 N 个值的情况下，或者如果数据不够倾斜以支持来自前 N 聚合的 N 个值。

列	类型	描述
`topn`	`AnyElement`	聚合中前 N 个最频繁的值

示例

从 `employees` 表中获取 20 个最频繁的 `zip_codes`


SELECT topn(mcv_agg(20, zip_code)) FROM employees;

rollup(
    agg SpaceSavingAggregate
) RETURNS SpaceSavingAggregate

这将合并使用 `freq_agg` 或 `mcv_agg` 函数创建的多个聚合。此函数要求源聚合使用相同的参数创建（`freq_agg` 的 `min_freq` 相同，如果使用 `mcv_agg`，则 n 因子和 `skew` 相同）。

这将产生一个与对所有源数据运行相同聚合函数非常相似的聚合。在大多数情况下，任何差异都不会超过您简单地重新排序输入所可能获得的差异。但是，如果不同聚合的源数据分布差异很大，汇总结果可能具有更宽松的频率边界。

必填参数

名称	类型	描述
`agg`	`SpaceSavingAggregate`	要汇总的聚合。这些聚合必须使用相同的参数创建。

列	类型	描述
`rollup`	`SpaceSavingAggregate`	一个聚合，包含所有聚合的所有底层数据中最常见的元素。

扩展示例

从表中获取 5 个最常见的值

此测试使用一个随机生成数据的表。所使用的值是 0 到 400 范围内随机数的整数平方根。


CREATE TABLE value_test(value INTEGER);
INSERT INTO value_test SELECT floor(sqrt(random() * 400)) FROM generate_series(1,100000);

这将返回表中观察到的 5 个最常见的值


SELECT topn(
    toolkit_experimental.freq_agg(0.05, value), 
    5) 
FROM value_test;

此查询的输出


topn 
------
   19
   18
   17
   16
   15

生成一个表，其中包含数据集中最常见值的频率

此测试使用一个随机生成数据的表。所使用的值是 (0,400) 范围内随机数的整数平方根。


CREATE TABLE value_test(value INTEGER);
INSERT INTO value_test SELECT floor(sqrt(random() * 400)) FROM generate_series(1,100000);

返回代表输入中超过 5% 的值


SELECT value, min_freq, max_freq
FROM into_values(
    (SELECT toolkit_experimental.freq_agg(0.05, value) FROM value_test));

此查询的输出如下所示，由于随机性存在一些变化


value | min_freq | max_freq 
-------+----------+----------
    19 |  0.09815 |  0.09815
    18 |  0.09169 |  0.09169
    17 |  0.08804 |  0.08804
    16 |  0.08248 |  0.08248
    15 |  0.07703 |  0.07703
    14 |  0.07157 |  0.07157
    13 |  0.06746 |  0.06746
    12 |  0.06378 |  0.06378
    11 |  0.05565 |  0.05595
    10 |  0.05286 |  0.05289

高级用法

您可以调整以下高级选项以适应您的数据分布

估算偏度

mcv_agg 假定数据是倾斜的。换句话说，某些值的出现频率高于其他值。偏度由 zeta 分布。

`1.1` 的默认值适用于具有此分布或更极端分布的数据

N	前 N 个值代表所有值的最小百分比（近似）
5	20%
10	25%
20	30%
50	36%
100	40%

freq_agg() 和 mcv_agg() 函数

相关超函数组

两步聚合

此组中的函数

警告

聚合

备用聚合

访问器

汇总

函数详情

freq_agg()

mcv_agg()

into_values()

max_frequency()

min_frequency()

topn()

rollup()

扩展示例

从表中获取 5 个最常见的值

生成一个表，其中包含数据集中最常见值的频率

高级用法

估算偏度

简介

相关超函数组

两步聚合

警告

聚合

备用聚合

访问器

汇总

freq_agg()

mcv_agg()

into_values()

max_frequency()

min_frequency()

topn()

rollup()

相关内容