【发布时间】:2021-09-01 00:34:48
【问题描述】:
我有这个数据框:
-----------------------------------------------------
| age | gender | customer type | purchases | id |
+-------+----------+---------------+-----------+----|
| 38 | female | type 1 | 90 | 1 |
| 35 | female | type 2 | 100 | 2 |
| 71 | male | type 2 | 66 | 3 |
| 68 | female | type 3 | 12 | 4 |
| 26 | male | type 4 | 900 | 5 |
| 55 | male | type 5 | 71 | 6 |
| 27 | male | type 1 | 55 | 7 |
| ... | ... | ... | ... | ...|
+-------+----------+---------------+-----------+----+
我想对每种客户类型进行火车和测试的拆分,例如 20% 测试 80% 的火车,并且具有相似的年龄和性别分布,因为例如: 如果我得到它的类型 1,80% 的女性,这不是一个好的分裂。
我尝试使用带有种子的随机模块,但我无法获得它,因为我不知道如何考虑拆分的年龄和性别。
谢谢!!
【问题讨论】:
-
您需要“分层”拆分,请参阅stackoverflow.com/a/50781604/1268926