【发布时间】:2019-07-23 12:20:52
【问题描述】:
我有一个包含 40k++ json 文件的 S3 文件夹,其中每个文件的格式如下:
[{"AAA": "XXXX", "BBB": "XXXX", "CCC": "XXXX"}]
我的目的是读取这些 json 文件(在一个 S3 文件夹中),将它们组合到一个结构化表中,也许是为了对数据进行一些转换,然后将它们加载到 MySQL 表中。这个过程可能需要每周运行一次。
在这种数据源上进行 ETL 的任何更快的方法?如果您有任何可行的建议,将不胜感激。非常感谢!
尝试使用 'obj.get()['Body'].read()'(在 python 中)之类的东西通过 boto3 读取每个 json 文件,但是,对所有文件的迭代需要我几个小时才能运行。
【问题讨论】:
标签: python json amazon-web-services amazon-s3 etl