【发布时间】:2021-12-30 05:00:19
【问题描述】:
我有一个数据框,其中有一个字符串列“exam_date”,格式为 YYYYMMDD。例如 20201130
我有一个要求,我必须将此 Dataframe 转换为 parquet 并上传,但是在上传时我希望列的架构类型为 DATE
java -jar parquet-tools.jar schema myfile.parquet 命令应将类型显示为
optional int32 exam_date (DATE);
我已经尝试将列转换为 DateTime 类型,像这样
final_calc_df['exam_date'] = pd.to_datetime(final_calc_df['exam_date'],format='%Y%m%d')
.dt.strftime('%Y%m%d')
但是,这给了我这样的输出
optional binary exam_date (STRING);
我应该怎么做才能得到想要的输出?
我想要的是将数据保留为 YYYYMMDD 格式,而不是字符串/日期时间/二进制类型,我希望它是日期类型 Date
optional int32 exam_date (DATE);
【问题讨论】:
-
尝试转换为 UNIX 时间,数据类型为 int(无小数天),请参阅 parquet format: date
标签: python dataframe datetime time parquet