【发布时间】:2018-11-06 15:50:05
【问题描述】:
我是 Google Cloud 的新手,我在 GCS 中有以下文件,需要设计一个数据流来合并文件并替换产品、位置文件中的值并将最终输出文件加载到 BigQuery。
- gs://testprojectxxxx/staging/actual_file.csv
- gs://testprojectxxxx/staging_timestamp/product.csv /location.csv
本地机器上的 Python 代码:
import pandas as pd
df1 = pd.read_csv("C:/Users/xxxx\\actual_file.csv")
df2 = pd.read_csv("C:/Users/xxxx_folder\\product.csv",header=None,names=['id', 'product_name'])
df3 = pd.merge(df1, df2, how='left', left_on='product_id', right_on='id')
df3.drop(['product_id_x', 'id'], axis=1,inplace=True)
df4 = pd.read_csv("C:/Users/xxxx_folder\\location.csv",header=None,names=['id', 'location_name'])
df5 = pd.merge(df3, df4, how='left', left_on='location_id', right_on='id')
df5.drop(['location_id_x', 'id'], axis=1,inplace=True)
df5.rename(columns={'product_name_y':'product_name','location_name_y':'location'}, inplace=True)
df5.to_csv('Final_file.csv', sep=',',encoding='utf-8', index=False)
感谢您的帮助。
【问题讨论】:
标签: python google-cloud-platform google-cloud-dataflow google-cloud-datalab