【问题标题】:Spark 2 Python Rename columns and set columns data typesSpark 2 Python重命名列并设置列数据类型
【发布时间】:2018-08-06 18:06:37
【问题描述】:

我正在使用 DataFrame 读取 HDFS 文件并使用正则表达式提取数据。

列名使用索引动态生成,列数据类型创建为字符串。

我是否可以在不单独重命名或强制转换列的情况下重新定义 DataFrame 的架构?

我的计划是将 DataFrame 转换为 RDD,然后将 RDD 转换回带有 schema 的 DataFrame。

我不确定这是否是个好主意。

【问题讨论】:

标签: python apache-spark pyspark


【解决方案1】:

如果您的数据框中只有几列,比如 5,并且您想重命名所有列,您可以使用如下 toDF() 函数。

旧列名称:A、B、C、D、E。 新列名称:V、W、X、Y、Z

newdf = df.toDF("V", "W", "X", "Y", "Z")

所以在 newdf 中你会找到新的列名。

如果你想重命名一个特定的,你可以使用函数“withColumnRenamed”

newdf = df.withColumnRenamed("current-_name", "new_name")

希望对你有帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-12
    • 2022-01-16
    • 2019-02-19
    • 1970-01-01
    • 2021-12-18
    相关资源
    最近更新 更多