【问题标题】:Create Dummy variables work around创建虚拟变量变通
【发布时间】:2018-04-06 22:25:58
【问题描述】:

我正在尝试从具有 pd.get_dummies 或 Serie.get_dummies 的列中创建虚拟变量,但我立即收到 Memory Error 错误。 (我有大约 100 万行)。

该列如下所示:

      Col1
0     A | B
1       A
2     C | A
3     B | C

有没有办法绕过这个错误?使用其他库或其他东西?

感谢您的帮助!

【问题讨论】:

  • 您可以购买更多内存。或者一次只处理小块
  • 正如@djk47463 所说,您应该分两遍逐行进行。第一遍将收集指定列中的所有值,然后第二遍将根据该列中的值更改数据并写入新文件。创建新文件后,尝试将其加载到稀疏数组中。

标签: python pandas numpy dataframe scikit-learn


【解决方案1】:

您可能有兴趣尝试其他方法将变量编码为mentioned here。您还可以查看this repository,了解文章中提到的各种方法的实现。这是documentation for the same

否则,您将不得不按照@Vivek Kumar 在他的评论中提到的那样分两次完成。

您可以查看thisthisthis,了解有关编码变量的替代方法的更多信息。

【讨论】:

    猜你喜欢
    • 2023-03-27
    • 2017-08-01
    • 2020-01-31
    • 1970-01-01
    • 2017-02-24
    • 2012-09-27
    • 2023-03-14
    • 1970-01-01
    • 2017-10-23
    相关资源
    最近更新 更多