【发布时间】:2019-03-25 08:30:28
【问题描述】:
我有一个 500+ MB 的 CSV 数据文件。我的问题是,对于数据操作(例如,读取、处理)来说,Python MySQL client 会更快,因为所有工作都映射到 SQL 查询中,优化留给优化器。但是,与此同时,Pandas 正在处理一个应该比与服务器通信更快的文件?
我已经检查了"Large data" work flows using pandas、Best practices for importing large CSV files、Fastest way to write large CSV with Python 和 Most efficient way to parse a large .csv in python?。但是,我还没有发现任何关于 Pandas 和 MySQL 的比较。
用例:
我正在处理由 1,737,123 行和 8 列组成的文本数据集。我正在将此数据集输入 RNN/LSTM 网络。我在喂食之前做了一些预处理,使用定制的编码算法进行编码。
更多细节
我有 250 多个实验要做,12 种架构(不同的模型设计)要尝试。
我很困惑,我觉得我错过了什么。
【问题讨论】:
-
我发现加载 MySQL 数据的最快方法是通过
LOAD DATA INFILE来完成。这是迄今为止最有效的路线。 -
@FrankerZ 您能否详细说明您的意思是与其他 Python 技术相比效率最高,还是从 MySQL 加载时效率最高?
-
投票结束因为不清楚:在不知道您的使用场景的情况下无法回答。
-
好的,我会提供更多细节。
-
@ivan_pozdeev 用例场景够清楚吗?