【发布时间】:2020-08-18 20:58:47
【问题描述】:
我有一个包含 150,000 个数据点的数据集。每个数据点都有几个字段,包括一个值列。我想对数据集进行采样,以便选择具有较高值的行比具有较低值的项目更有可能被选中。因此,根据下面的示例,在新数据集中,值 1000 的项目将比值为 5 的项目多得多。
我不确定 Pandas 执行此操作的方式。请问有人可以帮忙吗?
╔══════════════════════════════════════╗
║ id description number value ║
╠══════════════════════════════════════╣
║ 0 A 1 20 ║
║ 1 A 11 50 ║
║ 2 A 1 10 ║
║ 3 A 14 1000 ║
║ 4 A 1 20 ║
║ 5 A 13 50 ║
║ 6 A 1 800 ║
║ 7 A 1 30 ║
║ 8 A 13 5 ║
║ 9 A 12 500 ║
╚══════════════════════════════════════╝
非常感谢大家的帮助!
【问题讨论】:
标签: python pandas data-science sampling