【发布时间】:2017-07-23 07:17:21
【问题描述】:
我有这种类型的文件,其中每一行都是一个 JSON 对象,除了前几个单词(见附图)。我想使用 Spark 和 Scala 解析这种类型的文件。我已经使用 sqlContext.read.json(“json 文件的路径”) 进行了尝试,但它给了我错误(损坏的数据),因为整个数据不是 JSON 对象。如何将此 JSON 文件解析为 SQL 数据帧?
【问题讨论】:
-
如果你有无效的JSON,你不能使用任何工具来解析它
-
这是无效的 JSON 吗?
-
好吧,事实上你在实际 JSON 之前有非 JSON 数据,那么是的,它在 Sparks 眼中是无效的。您需要单独提取该数据
-
Spark中有没有办法单独提取数据?
-
@AkhilChoudhari 这些“前几个单词”在所有行中的长度是否相同?
标签: scala apache-spark apache-spark-sql