【发布时间】:2015-10-28 13:15:01
【问题描述】:
这更像是一个关于理解而不是编程的问题。 我对 Pandas 和 SQL 很陌生。我正在使用 pandas 从具有特定块大小的 SQL 中读取数据。 当我运行 sql 查询时,例如 将熊猫导入为 pd
df = pd.read_sql_query('select name, birthdate from table1', chunksize = 1000)
我不明白的是,当我不给出块大小时,数据存储在内存中,我可以看到内存在增长,但是,当我给出块大小时,内存使用率并没有那么高。
我拥有的是这个 df 现在包含许多我可以访问的数组
for df_array in df:
print df.head(5)
我不明白的是,如果 SQL 语句的整个结果都保存在内存中,即 df 是一个携带多个数组的对象,或者这些数组是否像指向由 SQL 查询创建的临时表的指针。
我很高兴能对这个过程的实际运作方式有所了解。
【问题讨论】:
标签: python sql-server pandas chunks