【发布时间】:2019-09-09 15:36:42
【问题描述】:
我有如下文件
H201908127477474
123|sample|customer|3433
786|ex|data|7474737
987|solve|data|6364
T3 637373
我想从文件中删除第一行和最后一行。请在 pyspark 中给我一些解决方案
我正在使用它来加载文件
df=spark.read.format('csv').load('sample.txt')
【问题讨论】:
-
需要从文件中删除 H201908127477474 和 T3 637373 行
-
它不会专门删除第一行和最后一行,但
df = spark.read.csv('sample.txt', sep="|", mode="DROPMALFORMED")在这种情况下可能对您有用。 -
使用后只返回
+--------------------+ | _c0| +--------------------+ |H201908127477474NO...| |T3 637373...| +--------------------+
标签: scala apache-spark pyspark databricks