【发布时间】:2023-04-09 09:41:01
【问题描述】:
我的 S3 存储桶中有很多 json 文件,我希望能够读取它们并查询这些文件。问题是它们印得很漂亮。一个 json 文件只有一个庞大的字典,但它不在一行中。根据this 线程,json 文件中的字典应该在一行中,这是 Apache Spark 的限制。我没有这样安排。
我的 JSON 架构如下所示 -
{
"dataset": [
{
"key1": [
{
"range": "range1",
"value": 0.0
},
{
"range": "range2",
"value": 0.23
}
]
}, {..}, {..}
],
"last_refreshed_time": "2016/09/08 15:05:31"
}
这是我的问题 -
我能否避免转换这些文件以匹配 Apache Spark 所需的架构(文件中每行一个字典)并且仍然能够读取它?
如果不是,在 Python 中最好的方法是什么?我每天都有一堆这些文件在桶里。存储桶按天划分。
除了 Apache Spark 之外,还有其他更适合查询这些文件的工具吗?我在 AWS 堆栈上,因此可以使用 Zeppelin 笔记本尝试任何其他建议的工具。
【问题讨论】:
-
我对 Spark 不熟悉,但如果你有 Python 可用,你可以使用
json模块读取 JSON 文件,然后做你想做的事(包括将其写回而不用漂亮-打印)。
标签: python json apache-spark amazon-s3