【发布时间】:2017-12-25 08:03:33
【问题描述】:
我正在尝试将具有 8 列的约 1200 万条记录导入 Python。由于它的巨大尺寸,我的笔记本电脑内存不足以完成此操作。现在我正在尝试将 SQL 数据导入 HDF5 文件格式。如果有人可以共享从 SQL 查询数据并将其保存为 HDF5 格式的代码的 sn-p 代码,那将非常有帮助。我愿意使用任何其他更易于使用的文件格式。
我计划做一些基本的探索性分析,稍后可能会使用 pandas 创建一些决策树/线性回归模型。
import pyodbc
import numpy as np
import pandas as pd
con = pyodbc.connect('Trusted_Connection=yes',
driver = '{ODBC Driver 13 for SQL Server}',
server = 'SQL_ServerName')
df = pd.read_sql("select * from table_a",con,index_col=['Accountid'],chunksize=1000)
【问题讨论】:
标签: sql python-3.x pandas hdf5 hdfstore