【发布时间】:2021-07-14 13:08:33
【问题描述】:
我正在尝试在 spark 中读取每行有一个 json 文件的 json 文件
["io", {"in": 8, "out": 0, "dev": "68", "time": 1532035082.614868}]
["io", {"in": 0, "out": 0, "dev": "68", "time": 1532035082.97122}]
["test", {"A": [{"para1":[], "para2": true, "para3": 68, "name":"", "observation":[[2,3],[3,2]],"time": 1532035082.97122}]}]
这有点棘手,因为每一行都是一个有效的 json 文件。 我直接和熊猫一起做:
pd.read_json(filepath,compression='infer', orient='records, lines=True)
但是在使用 DataFrame 的 spark 中它不起作用
spark.read.option('multiline','true').json(filepath)
我试图逐行读取文件,但仍然出现错误:
lines = sc.textFile(filepath)
llist = lines.collect()
for line in llist:
print(line)
df = spark.read.option('multiline','true).json(line)
df.printSchema()
错误是 IllegalArgumentException: java.net.URISyntaxException:绝对 URI 中的相对路径:.....
感谢您帮助找出解决方案
【问题讨论】:
标签: python json apache-spark pyspark