【发布时间】:2021-09-02 01:13:04
【问题描述】:
如何从 spark DF 的列中选择 Dev\” 和 dev\ 之后的字符或文件路径?
pyspark 列的示例行:
\\D\Dev\johnny\Desktop\TEST
\\D\Dev\matt\Desktop\TEST\NEW
\\D\Dev\matt\Desktop\TEST\OLD\TEST
\\E\dev\peter\Desktop\RUN\SUBFOLDER\New
预期输出
johnny\Desktop\TEST
matt\Desktop\TEST\NEW
matt\Desktop\TEST\OLD\TEST
peter\Desktop\RUN\SUBFOLDER\New
我尝试使用下面的代码。
df = df.withColumn(
"sub_path",
F.element_at(F.split(F.col("path"), "Dev\\\\"), -1)
)
它只给出我想要的正确结果。 感谢有人可以提供帮助。
【问题讨论】:
标签: python dataframe pyspark apache-spark-sql