【发布时间】:2019-04-23 18:57:46
【问题描述】:
我正在尝试验证 csv 文件(每条记录的列数)。根据下面的链接,在 Databricks 3.0 中有处理它的选项。
http://www.discussbigdata.com/2018/07/capture-bad-records-while-loading-csv.html
df = spark.read
.option("badRecordsPath", "/data/badRecPath")
.parquet("/input/parquetFile")
但是,我使用的是 2.3 spark 版本,无法使用该选项。
在读取 pyspark 的一部分并希望将不良记录写入文件时,有什么方法可以找出 csv 文件中的不良记录。
架构不是静态的,因为我们要处理多个表数据并且无法对架构进行硬编码。
df = spark.read.option("wholeFile", "true"). \
option("header", "true"). \
option("quote", "\""). \
csv("${table}/path/to/csv/file")
【问题讨论】:
标签: csv apache-spark dataframe pyspark