如何加载大量数据来训练机器学习模型？ [关闭]答案

【问题标题】：How to load large amount of data for training machine learning models? [closed]如何加载大量数据来训练机器学习模型？ [关闭]
【发布时间】：2021-10-18 16:07:52
【问题描述】：

该文件大约 2GB，包含大约 100 万条记录，有 200 多列。我尝试在整个晚上使用pd.read_csv() 创建数据帧，但内核冻结并且无法完成数据帧的创建。

如何加载大量数据集？

【问题讨论】：

您需要所有的列吗？如果没有，请将它们限制在 read_csv 中。您是否经常阅读相同的 csv？将其保存为更快的格式，例如镶木地板或羽毛或泡菜，以便以后更快地加载。或先将其放入某个数据库中。好的 ole sql 或其他一些大数据数据库。 csv 的一个问题是它的未知长度，因此它被读取然后转换为数据帧，使数据集的内存增加了一倍以上。
您能否分享您的代码，以便我们了解您是如何加载数据的？

标签： python machine-learning jupyter-notebook bigdata data-science

【解决方案1】：

您可以使用“Pandas”，因为它将数据集保存在 RAM 中，它可以更快地执行特定计算（尝试创建数据框以管理您的数据）。您还可以使用“Dask”来执行分布式和并行计算。

【讨论】：