【发布时间】:2018-01-01 04:23:48
【问题描述】:
我正在尝试找到一种方法,开始在 Pandas 中处理非常大的 CSV 文件,最终能够使用 XGBoost 进行一些机器学习。
我在使用 mySQL 或一些 sqllite 框架来管理我的数据块之间犹豫不决;我的问题在于稍后的机器学习方面,以及一次加载块以训练模型。
我的另一个想法是使用Dask,它基于 Pandas 构建,但也具有 XGBoost 功能。
我不确定最好的起点是什么,并希望征求意见!我倾向于Dask,但我还没有使用它。
【问题讨论】:
-
15GB 不算什么。启动 sqlite,你就可以设置好了。
-
总共或多或少 4 x 15 - 18 GB - 但感谢您的建议,我对“大数据”还不太了解。
-
一个您可能会感兴趣的带有 xgboost 和 csv 数据的 dask 示例:matthewrocklin.com/blog/work/2017/03/28/dask-xgboost
标签: python pandas machine-learning xgboost dask