根据分布从列表中选择元素答案

【问题标题】：Select elements from list based on a distribution根据分布从列表中选择元素
【发布时间】：2020-06-17 14:28:39
【问题描述】：

我有一个列表，其中包含彼此非常不同的数字：

[85、1966、1135、1602、1225、35460、829、12532、1923、4091、113、7592、 2011、2179、886、18451、3069、6400、9228、1215、5、6484、1947、786、 21121、28、9917、24747、20798、36051、16670、169、4497、32262、33、25348、19127、1354、26]

是否有可能只提取 10 个元素，但这些元素在初始值的分布方面尽可能具有代表性？

我缺乏数学背景，所以这就是我还没有尝试任何东西的原因。因为我不知道从哪里开始。

【问题讨论】：

您想要什么类型的分发？ top-n、bottom-n、随机、第 n 项等？
我不确定。我想要一个能够提取最具代表性的数字的分布。
从直方图开始，看看是否有更多结果聚集的范围。

标签： python list python-2.7 distribution

【解决方案1】：

数据中的随机分布可能有很大不同。也就是说，10个号码不能正确呈现整个号码列表。但是，您可以尝试做的事情是首先sort 列表，然后以相同的间隔从列表中统一sample 10 个数字。您可能会注意到，这种方法很可能会告诉您您的数据是否处于均匀分布中。如果没有，您可以判断数据是否存在左偏或右偏。这将在一定程度上为您提供信息。

除了简单的方法之外，我建议使用包 pandas 中的 describe 函数通过平均值、众数、中位数、最小值、最大值、分位数等统计数据来研究它们的属性。

【讨论】：