【发布时间】:2020-11-28 15:24:08
【问题描述】:
我有一个文件,看起来像 -
Col1,Col2,Col3,Col4
值 11、值 12、值 13、值 14
价值21,价值22,价值23,价值24
..
..
我已将文件加载到 Pyspark 数据框中(我无法使用 python,因为数据集很大)
w1 = spark.read.format('csv').options(header='false', inferschema='false').load('./part1')
我想检查每一行是否有相同数量的逗号。有没有办法输出逗号数不等于 3 的行?
【问题讨论】:
-
你在这里的意图是什么?检查 csv 格式是否正确??
-
是的,完全正确。我必须根据这些数据建立一个模型——只想检查数据是否 100% 正确。
标签: python pyspark apache-spark-sql