Spark 2 Python重命名列并设置列数据类型答案

【问题标题】：Spark 2 Python Rename columns and set columns data typesSpark 2 Python重命名列并设置列数据类型
【发布时间】：2018-08-06 18:06:37
【问题描述】：

我正在使用 DataFrame 读取 HDFS 文件并使用正则表达式提取数据。

列名使用索引动态生成，列数据类型创建为字符串。

我是否可以在不单独重命名或强制转换列的情况下重新定义 DataFrame 的架构？

我的计划是将 DataFrame 转换为 RDD，然后将 RDD 转换回带有 schema 的 DataFrame。

我不确定这是否是个好主意。

【问题讨论】：

【解决方案1】：

如果您的数据框中只有几列，比如 5，并且您想重命名所有列，您可以使用如下 toDF() 函数。

旧列名称：A、B、C、D、E。新列名称：V、W、X、Y、Z

newdf = df.toDF("V", "W", "X", "Y", "Z")

所以在 newdf 中你会找到新的列名。

如果你想重命名一个特定的，你可以使用函数“withColumnRenamed”

newdf = df.withColumnRenamed("current-_name", "new_name")

希望对你有帮助。

【讨论】：