TimescaleDB API 参考超函数统计和回归分析

简介

对二维数据执行线性回归分析,例如计算相关系数和协方差。您还可以分别计算每个维度的常见统计数据,例如平均值和标准差。这些函数类似于 PostgreSQL 统计聚合,但它们包含更多功能,并且在 连续聚合 和窗口函数中更易于使用。线性回归基于标准最小二乘拟合方法。

这些函数适用于二维数据。要使用一维数据(例如,计算单个变量的平均值和标准差),请参阅 一维 stats_agg 函数

相关的超函数组

聚合

stats_agg(两个变量)
将数据聚合到中间统计聚合形式中,以供进一步计算

访问器

average_y,average_x
从二维统计聚合中计算指定维度的平均值
corr
从二维统计聚合中计算相关系数
covariance
从二维统计聚合中计算协方差
determination_coeff
从二维统计聚合中计算决定系数
intercept
从二维统计聚合中计算截距
kurtosis_y,kurtosis_x
从二维统计聚合中计算指定维度的峰度
num_vals
计算二维统计聚合中的值数量
skewness_y,skewness_x
从二维统计聚合中计算指定维度的偏度
slope
从二维统计聚合中计算斜率
stddev_y,stddev_x
从二维统计聚合中计算指定维度的标准差
sum_y,sum_x
从二维统计聚合中计算指定维度的总和
variance_y,variance_x
从二维统计聚合中计算指定维度的方差
x_intercept
从二维统计聚合中计算 x 轴截距

汇总

rolling
组合多个二维统计聚合以计算滚动窗口聚合
rollup
组合多个二维统计聚合
stats_agg(
y DOUBLE PRECISION,
x DOUBLE PRECISION
) RETURNS StatsSummary2D

这是对二维数据执行任何统计聚合计算的第一步。使用 stats_agg 从您的数据创建中间聚合 (StatsSummary2D)。然后,可以使用此组中的一个或多个访问器对该中间形式进行计算,以获得最终结果。或者,可以使用 rollup()rolling() 在应用访问器之前组合多个此类中间聚合对象。

必需参数
名称类型描述
y,xDOUBLE PRECISION用于统计聚合的变量。
返回值
类型描述
stats_aggStatsSummary2D统计聚合,其中包含有关变量的中间形式数据。将聚合传递给统计聚合 API 中的访问器函数以执行最终计算。或者,将聚合传递给汇总函数,将多个统计聚合组合成更大的聚合。
average_y(
summary StatsSummary 2D
) RETURNS DOUBLE PRECISION
average_x(
summary StatsSummary 2D
) RETURNS DOUBLE PRECISION

从二维聚合中计算给定维度的平均值。例如,average_y() 计算 y 变量所有值的平均值,与 x 变量的值无关。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
average_y, average_xDOUBLE PRECISION统计聚合中值的平均值
示例

计算从 0 到 100 的整数的平均值

SELECT average_x(stats_agg(y, x))
FROM generate_series(1, 5) y,
generate_series(0, 100) x;
average
-----------
50
corr(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算相关系数。计算使用标准最小二乘拟合进行线性回归。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
corrDOUBLE PRECISION最小二乘拟合线的相关系数
示例

计算每个 15 分钟时间段的独立变量 y 和因变量 x 的相关系数

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
corr(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
covariance(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算协方差。计算使用标准最小二乘拟合进行线性回归。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
可选参数
名称类型描述
methodTEXT用于计算协方差的方法。两个选项是 populationsample,可以缩写为 popsamp。默认为 sample
返回值
类型描述
covarianceDOUBLE PRECISION最小二乘拟合线的协方差
示例

计算每个 15 分钟时间段的独立变量 y 和因变量 x 的协方差

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
covariance(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
determination_coeff(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算决定系数。计算使用标准最小二乘拟合进行线性回归。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
determination_coeffDOUBLE PRECISION最小二乘拟合线的决定系数
示例

计算每个 15 分钟时间段的独立变量 y 和因变量 x 的决定系数

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
determination_coeff(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
intercept(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算 y 轴截距。计算使用标准最小二乘拟合进行线性回归。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
interceptDOUBLE PRECISION最小二乘拟合线的 y 轴截距
示例

计算每个 15 分钟时间段的独立变量 y 和因变量 x 的 y 轴截距

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
intercept(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
kurtosis_y(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION
kurtosis_x(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算给定维度的峰度。例如,kurtosis_y() 计算 y 变量所有值的峰度,与 x 变量的值无关。峰度是第四个统计矩。它衡量数据分布与正态分布相比的“尾部”程度。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
可选参数
名称类型描述
methodTEXT用于计算峰度的方法。两个选项是 populationsample,可以缩写为 popsamp。默认为 sample
返回值
类型描述
kurtosis_y, kurtosis_xDOUBLE PRECISION统计聚合中值的峰度
示例

计算包含从 0 到 100 的整数的样本的峰度

SELECT kurtosis_y(stats_agg(data, data))
FROM generate_series(0, 100) data;
kurtosis_y
----------
1.78195
num_vals(
summary StatsSummary2D
) RETURNS BIGINT

计算二维统计聚合中包含的值数量。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
num_valsDOUBLE PRECISION统计聚合中的值数量
示例

计算从 1 到 5 以及从 0 到 100(含)的值数量

SELECT num_vals(stats_agg(y, x))
FROM generate_series(1, 5) y,
generate_series(0, 100) x;
num_vals
--------
505
skewness_y(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION
skewness_x(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算给定维度的偏度。例如,skewness_y() 计算 y 变量所有值的偏度,与 x 变量的值无关。偏度是第三个统计矩。它衡量数据分布中的不对称性。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
可选参数
名称类型描述
methodTEXT用于计算偏度的方法。两个选项是 populationsample,可以缩写为 popsamp。默认为 sample
返回值
类型描述
skewness_y, skewness_xDOUBLE PRECISION统计聚合中值的偏度
示例

计算包含从 0 到 100 的整数的样本的偏度

SELECT skewness_x(stats_agg(data, data))
FROM generate_series(0, 100) data;
skewness_x
----------
0
slope(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算线性拟合线的斜率。计算使用标准最小二乘拟合进行线性回归。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
slopeDOUBLE PRECISION最小二乘拟合线的斜率
示例

计算每个 15 分钟时间段的独立变量 y 和因变量 x 的斜率

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
slope(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
stddev_y(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION
stddev_x(summary
StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION

从二维统计聚合中计算给定维度的标准差。例如,stddev_y() 计算 y 变量所有值的偏度,与 x 变量的值无关。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
可选参数
名称类型描述
methodTEXT用于计算标准差的方法。两个选项是 populationsample,可以缩写为 popsamp。默认为 sample
返回值
类型描述
stddev_y, stddev_xDOUBLE PRECISION统计聚合中值的标准差
示例

计算包含从 0 到 100 的整数的样本的标准差

SELECT stddev_y(stats_agg(data, data))
FROM generate_series(0, 100) data;
stddev_y
--------
29.3002
sum_y(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION
sum_x(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

计算给定维度上的二维统计聚合的总和。例如,sum_y()计算所有y变量的值的偏度,独立于x变量的值。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
sumDOUBLE PRECISION统计聚合中值的总和
示例

计算从 0 到 100 的数字的总和

SELECT sum_y(stats_agg(data, data))
FROM generate_series(0, 100) data;
sum_y
-----
5050
variance_y(
summary StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION
variance_x(summary
StatsSummary2D,
[ method TEXT ]
) RETURNS DOUBLE PRECISION

计算给定维度上的二维统计聚合的方差。例如,variance_y()计算所有y变量的值的偏度,独立于x变量的值。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
可选参数
名称类型描述
methodTEXT用于计算标准差的方法。两个选项是 populationsample,可以缩写为 popsamp。默认为 sample
返回值
类型描述
varianceDOUBLE PRECISION统计聚合中值的方差
示例

计算包含从 0 到 100 的整数的样本的方差

SELECT variance_y(stats_agg(data, data))
FROM generate_series(0, 100) data;
variance_y
----------
858.5
x_intercept(
summary StatsSummary2D
) RETURNS DOUBLE PRECISION

计算二维统计聚合的 x 轴截距。计算使用线性回归的标准最小二乘拟合。

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
interceptDOUBLE PRECISION最小二乘拟合线的 x 轴截距
示例

从每个 15 分钟的时间段的独立变量y和因变量x计算 x 轴截距

SELECT
id,
time_bucket('15 min'::interval, ts) AS bucket,
x_intercept(stats_agg(y, x)) AS summary
FROM foo
GROUP BY id, time_bucket('15 min'::interval, ts)
rolling(
ss StatsSummary2D
) RETURNS StatsSummary2D

将多个中间二维统计聚合 (StatsSummary2D) 对象合并到单个StatsSummary2D对象中。它针对在窗口函数上下文中使用以计算滚动窗口统计聚合进行了优化。

这对于从连续聚合中计算滚动窗口聚合特别有用。它可以快几个数量级,因为它使用逆变换和合并函数,在异常情况下可能会发生更大的浮点错误。

对于非窗口函数上下文中重新聚合,例如将每小时桶合并到每日桶,请参阅rollup()

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
rollingStatsSummary2D通过合并输入统计聚合产生的新的统计聚合
rolling(
ss StatsSummary2D
) RETURNS StatsSummary2D

将多个中间二维统计聚合 (StatsSummary2D) 对象合并到单个StatsSummary2D对象中。例如,您可以使用rollup将 15 分钟桶的统计聚合合并到每日桶中。要用于窗口函数,请参阅rolling()

必需参数
名称类型描述
summaryStatsSummary2Dstats_agg 调用生成的统计聚合
返回值
类型描述
rollupStatsSummary2D通过合并输入统计聚合产生的新的统计聚合

创建一个统计聚合,它汇总有关两个变量val2val1的每日统计数据的,其中val2是因变量,val1是自变量。使用统计聚合来计算因变量的平均值和线性回归拟合的斜率

WITH t as (
SELECT
time_bucket('1 day'::interval, ts) as dt,
stats_agg(val2, val1) AS stats2D,
FROM foo
WHERE id = 'bar'
GROUP BY time_bucket('1 day'::interval, ts)
)
SELECT
average_x(stats2D),
slope(stats2D)
FROM t;

关键字

在这个页面上发现问题了吗?报告问题 或在 GitHub 上编辑此页面