【发布时间】:2021-02-16 21:41:50
【问题描述】:
我有一个通过 spark 加载的 csv 文件。我想区分好记录和坏记录,也想知道坏记录的每一行级别的错误。
我正在指定一个模式并且可以像这样捕获损坏记录,但是如何获取每个不同损坏记录的错误消息?
--------------+-----------+----------+--------------------+-------+--------------------+
|service_point_number|energy_type|is_enabled| metadata|testint| _corrupt_record|
+--------------------+-----------+----------+--------------------+-------+--------------------+
| 90453512| E| false|Address1@420#Addr...| 23| null|
| 14802348| G| false|Address1@420#Addr...| 24| null|
| null| null| null| null| null|99944990,E,12,Add...|
| 78377144| E| false| 123| 26| null|
| 25506816| G| false|Address1@420#Addr...| 27| null|
| 48789905| E| true|Address1@420#Addr...| null|48789905,E,true,A...|
| 20283032| E| false|Address1@420#Addr...| 29| null|
| 67311231| G| false|Address1@420#Addr...| 30| null|
| 18240558| G| false|Address1@420#Addr...| 31|18240558,G,false,...|
| 42631153| E| false|Address1@420#Addr...| 32| null|
+--------------------+-----------+----------+--------------------+-------+--------------------+
【问题讨论】:
标签: java apache-spark