【发布时间】:2018-07-28 00:17:51
【问题描述】:
我正在使用以下代码将制表符分隔文件读入 postgres 数据库
enginestring = cfg.dbuser+":"+cfg.dbpwd+"@"+server.local_bind_host+":"+str(server.local_bind_port)+"/"+cfg.dbname
engine = create_engine('postgresql://' + enginestring)
rows = []
for line in smart_open.smart_open(key):
ln = str(line.decode('utf-8'))
fields = ln.split('\t')
rows.append(fields)
df = pd.DataFrame(rows, columns=cfg.df_colheaders)
print(df.head)
df.to_sql(name=table_name, con=engine, if_exists='append')
对 print 的调用返回我期望的数据帧(即 [798624 行 x 133 列])并且对 to_sql 的调用没有失败,但在数据库中我只看到一行具有正确列的数据.. .(如果之前创建过表,结果相同)
【问题讨论】:
-
我认为这不是连接问题,因为此循环创建了多个表而无需重新连接。会不会是数据问题?
-
很奇怪。 1.
df.head()返回有意义的东西,对吗? 2. 在较小的数据集上测试代码时会发生什么,例如df = df.head()然后df.to_sql(name=table_name, con=engine, if_exists='append') -
请在
df.to_sql()中添加, index=False)看看是否起作用。
标签: python pandas pandas-to-sql