【发布时间】:2021-04-26 19:40:12
【问题描述】:
我正在从 hdfs 读取管道分隔的文本文件。我想将此文件存储为数据帧以进行进一步的 pyspark 数据帧相关操作。我能够从 hdfs 读取文件,现在我想知道如何将其转换为数据帧。有可能吗?
input=sc.textFile("hdfs://host/user/data/file1.txt") ## it is RDD
如果第一种方法不可能,那么在第二种方法中,我想将此完整文件转换为 csv 格式,为此我想替换管道“|”用逗号“,”从每个地方开始,然后想将此文件存储为 csv,然后再转换为数据帧。请让我知道在 pyspark-2.2.0 中解决此问题的最佳方法。
【问题讨论】: