【发布时间】:2018-08-06 18:06:37
【问题描述】:
我正在使用 DataFrame 读取 HDFS 文件并使用正则表达式提取数据。
列名使用索引动态生成,列数据类型创建为字符串。
我是否可以在不单独重命名或强制转换列的情况下重新定义 DataFrame 的架构?
我的计划是将 DataFrame 转换为 RDD,然后将 RDD 转换回带有 schema 的 DataFrame。
我不确定这是否是个好主意。
【问题讨论】:
-
不建议转换为
rdd并返回。您可以尝试类似答案here。如果这不起作用,请解释原因并请发帖minimal reproducible example。
标签: python apache-spark pyspark