Pyspark：拆分并选择部分字符串列值答案

【问题标题】：Pyspark: Split and select part of the string column valuesPyspark：拆分并选择部分字符串列值
【发布时间】：2021-09-02 01:13:04
【问题描述】：

如何从 spark DF 的列中选择 Dev\” 和 dev\ 之后的字符或文件路径？

pyspark 列的示例行：

\\D\Dev\johnny\Desktop\TEST
\\D\Dev\matt\Desktop\TEST\NEW
\\D\Dev\matt\Desktop\TEST\OLD\TEST
\\E\dev\peter\Desktop\RUN\SUBFOLDER\New

预期输出

johnny\Desktop\TEST
matt\Desktop\TEST\NEW
matt\Desktop\TEST\OLD\TEST
peter\Desktop\RUN\SUBFOLDER\New

我尝试使用下面的代码。

df = df.withColumn(
        "sub_path",
        F.element_at(F.split(F.col("path"), "Dev\\\\"), -1)
    )

它只给出我想要的正确结果。感谢有人可以提供帮助。

【问题讨论】：

【解决方案1】：

下面的修改[Dd]匹配大小写d。

df = df.withColumn(
        "sub_path",
        F.element_at(F.split(F.col("path"), "[Dd]ev\\\\"), -1)
    )

让我知道这是否适合你。

【讨论】：