Timescale Cloud:性能、规模、企业级

自托管产品

MST

总的来说,百分位数对于理解数据分布很有用。第五十百分位数是数据中一半大于它,一半小于它的点。第十百分位数是数据中 90% 大于它,10% 小于它的点。第九十九百分位数是数据中 1% 大于它,99% 小于它的点。

第五十百分位数,或中位数,通常比平均值更有用,特别是当您的数据包含异常值时。异常值会显著改变平均值,但对中位数的影响不大。例如,如果您家有三个房间,其中两个房间是 40℉ (4℃),一个房间是 130℉ (54℃),那么平均室温是 70℉ (21℃),这并不能告诉您太多信息。然而,第五十百分位数温度是 40℉ (4℃),这告诉您至少一半的房间处于冰箱温度(另外,您可能应该检查一下供暖系统!)。

有时会避免使用百分位数,因为计算它们比计算平均值或其他聚合度量需要更多的 CPU 和内存。这是因为精确计算百分位数需要将完整数据集作为有序列表。Timescale 使用近似算法来计算百分位数,而无需所有数据。这也使它们与连续聚合更兼容。默认情况下,TimescaleDB 使用 `uddsketch`,但您也可以选择使用 `tdigest`。有关这些算法的更多信息,请参阅高级聚合方法文档。

注意

从技术上讲,百分位数将一个组分成 100 个大小相等的部分,而分位数将一个组分成任意数量的部分。因为我们不总是精确使用 100 个桶,“分位数”在这种情况下是更精确的技术术语。但是,我们使用“百分位数”这个词,因为它是这类函数中更常用的词。

关键词

本页有任何问题?报告问题 或 在 GitHub 上编辑此页面