【发布时间】:2022-02-17 17:45:37
【问题描述】:
我有以下df,我想过滤掉所有包含https的列
df = spark.createDataFrame([
('https:john', 'john', 1.1, 'httpsasd'),
('https:john', 'john', 1.2, 'httpsasd')
], ['website', 'name', 'value', 'other']
)
我找到了一个答案,它没有将列内的 str 作为过滤器:PySpark drop columns based on column names / String condition
我正在寻找的是如下输出:
name | value
--------------------
john | 1.1
pete | 1.2
【问题讨论】:
-
你的预期输出是什么?
-
只有 'name','value' 列的 df。
-
你能以粗略的格式发布你想要的最终输出吗
标签: python dataframe apache-spark pyspark apache-spark-sql