【发布时间】:2021-11-16 17:03:41
【问题描述】:
数据在 excel 文件中,这意味着文件格式为“.xlsx”。表的标题已经在前两行之间进行了拆分。我该如何解决?是否有任何解决方案可以为每列取两个名称中的最佳值,并将该列名称作为标题
我在源文件中有这些行:
|Unnamed:_0|Unnamed:_1|Unnamed:_2|Unnamed:_3|Unnamed:_4|Year |2018|2018.1|
|Col1 |Col2 |Col3 |Col4 |Col5 |Month|Jul |Aug |
我想将表格的标题显示为:
|Col1|Col2|Col3|Col4|Col5|Year_Month|2018_07|2018.1_08|
如果你能帮我提供一个解决方案,我会很高兴,因为我是 pyspark 的新手
【问题讨论】:
-
文件格式是什么?如果 csv ,@Hubert Dudek 的答案是正确的选择。
-
文件格式为excel
标签: pyspark databricks