【问题标题】:How to load large amount of data for training machine learning models? [closed]如何加载大量数据来训练机器学习模型? [关闭]
【发布时间】:2021-10-18 16:07:52
【问题描述】:

该文件大约 2GB,包含大约 100 万条记录,有 200 多列。我尝试在整个晚上使用pd.read_csv() 创建数据帧,但内核冻结并且无法完成数据帧的创建。

如何加载大量数据集?

【问题讨论】:

  • 您需要所有的列吗?如果没有,请将它们限制在 read_csv 中。您是否经常阅读相同的 csv?将其保存为更快的格式,例如镶木地板或羽毛或泡菜,以便以后更快地加载。或先将其放入某个数据库中。好的 ole sql 或其他一些大数据数据库。 csv 的一个问题是它的未知长度,因此它被读取然后转换为数据帧,使数据集的内存增加了一倍以上。
  • 您能否分享您的代码,以便我们了解您是如何加载数据的?

标签: python machine-learning jupyter-notebook bigdata data-science


【解决方案1】:

您可以使用“Pandas”,因为它将数据集保存在 RAM 中,它可以更快地执行特定计算(尝试创建数据框以管理您的数据)。您还可以使用“Dask”来执行分布式和并行计算。

【讨论】:

    猜你喜欢
    • 2018-06-12
    • 2017-09-21
    • 2020-12-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-25
    • 2017-04-06
    • 2019-05-06
    相关资源
    最近更新 更多