【问题标题】:Select elements from list based on a distribution根据分布从列表中选择元素
【发布时间】:2020-06-17 14:28:39
【问题描述】:

我有一个列表,其中包含彼此非常不同的数字:

[85、1966、1135、1602、1225、35460、829、12532、1923、4091、113、7592、 2011、2179、886、18451、3069、6400、9228、1215、5、6484、1947、786、 21121、28、9917、24747、20798、36051、16670、169、4497、32262、33、25348、19127、1354、26]

是否有可能只提取 10 个元素,但这些元素在初始值的分布方面尽可能具有代表性?

我缺乏数学背景,所以这就是我还没有尝试任何东西的原因。因为我不知道从哪里开始。

【问题讨论】:

  • 您想要什么类型的分发? top-n、bottom-n、随机、第 n 项等?
  • 我不确定。我想要一个能够提取最具代表性的数字的分布。
  • 从直方图开始,看看是否有更多结果聚集的范围。

标签: python list python-2.7 distribution


【解决方案1】:

数据中的随机分布可能有很大不同。也就是说,10个号码不能正确呈现整个号码列表。但是,您可以尝试做的事情是首先sort 列表,然后以相同的间隔从列表中统一sample 10 个数字。您可能会注意到,这种方法很可能会告诉您您的数据是否处于均匀分布中。如果没有,您可以判断数据是否存在左偏或右偏。这将在一定程度上为您提供信息。

除了简单的方法之外,我建议使用包 pandas 中的 describe 函数通过平均值、众数、中位数、最小值、最大值、分位数等统计数据来研究它们的属性。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-12-23
    • 2021-07-12
    • 1970-01-01
    • 2020-03-01
    • 1970-01-01
    • 2022-10-14
    相关资源
    最近更新 更多