【发布时间】:2018-04-06 22:25:58
【问题描述】:
我正在尝试从具有 pd.get_dummies 或 Serie.get_dummies 的列中创建虚拟变量,但我立即收到 Memory Error 错误。 (我有大约 100 万行)。
该列如下所示:
Col1
0 A | B
1 A
2 C | A
3 B | C
有没有办法绕过这个错误?使用其他库或其他东西?
感谢您的帮助!
【问题讨论】:
-
您可以购买更多内存。或者一次只处理小块
-
正如@djk47463 所说,您应该分两遍逐行进行。第一遍将收集指定列中的所有值,然后第二遍将根据该列中的值更改数据并写入新文件。创建新文件后,尝试将其加载到稀疏数组中。
标签: python pandas numpy dataframe scikit-learn