从百分位数组加权百分位数计算答案

【问题标题】：Weighted percentile calculation from group of percentiles从百分位数组加权百分位数计算
【发布时间】：2021-02-26 05:09:26
【问题描述】：

如果我们在同一时间段的 1 分钟窗口内有第 k 个个百分位，我们能否计算总体第 k个个百分位。

基础数据不可用。只有 kth 个百分位和可用的基础数据计数。

任何可用的现有算法。计算出的第 k 个个百分位数会是多少？

【问题讨论】：

不清楚你在这里问什么。具体来说，您拥有哪些时间段和数据以及您尝试计算的数据。你有每一个百分位数并计算每一分钟吗？您是否试图在包括这些分钟在内的更长时间内获得第 K 个百分位数？如果是这样，那么是的，它可以以合理的准确度进行近似。
我有第 k 个百分位数，每分钟计算一整天。是否可以根据以上 2 个输入计算一整天的第 k 个百分位数。如何以及什么是准确性。

标签： statistics computer-science percentile

【解决方案1】：

没有。如果每个时间段只有一个百分位数（和计数），那么您无法合理地估计整个时间段的相同百分位数。

这是因为百分位数只是半数值度量（如均值），并不能隐含地告诉您它们在每个测量时间高于和低于测量值的分布情况。上述情况有几个例外。

如果您拥有的百分位数是第 50 个百分位数（即平均值），那么您可以对整个时间的平均值进行一些外推，但这有点粗略，我不确定方差会有多糟糕是。
如果您的百分位数所有非常接近（与测量人口的实际范围相比），那么显然您可以将其用作总体百分位数的合理估计。
如果您可以高度肯定地假设每一分钟的数据都是独立对完全相同的人口分布进行抽样（即不存在时间依赖性），那么即使不完全知道确切的分布（具有未知的参数，但仍然知道在一段时间内是固定的），您也可以将它们组合起来。同样，我不确定对此的有效函数和方差计算是什么。
如果已知（或可以假设）分布是具有某个或多个未知值的特定函数或形状，并且时间依赖性在该函数中具有已知作用，那么您应该能够使用权重和时间-调整以转换为与上述＃3相同的情况。因此，例如，如果分布是pdf(k,t) = (k*t)e^-(k*t) 形式的时变指数分布，那么我相信您可以通过估计k 的值来得出一个整体百分位估计值，方法是针对每个不同的分钟进行调整（t )。

很遗憾，我不是专业的统计学家。我有数学/计算机科学背景，足以对数学上可能/合理的事情有所了解，但不足以确切说明如何去做。如果您认为您的情况属于上述类别之一，那么您可以将其提交给https://stats.stackexchange.com，但您还需要提供我在这些类别中提到的信息和/或有关您的情况的详细和具体信息正在测量以及如何测量它。

【讨论】：

【解决方案2】：

基于统计直觉，错误率将与总集的标准偏差成正比。如果您正在创建一个较长时间跨度的近似值，其中包括第 k 个百分位数的离散块。 [为了证明这个理论可能需要澄清。]

【讨论】：