【发布时间】:2018-04-06 19:08:05
【问题描述】:
我正在从事一项 ETL 作业,该作业会将 JSON 文件提取到 RDS 暂存表中。我配置的爬虫可以对小于 1MB 的 JSON 文件进行分类。如果我缩小文件(而不是漂亮的打印),如果结果小于 1MB,它将毫无问题地对文件进行分类。
我无法想出解决方法。我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件,但它仍然被归类为 UNKNOWN。
还有其他人遇到过这个问题吗?有一个更好的方法吗?
【问题讨论】:
-
谢谢,我被困了几个小时,删除缩进修复了它。
-
我也有同样的问题。你能给我更多关于这些缩进的细节吗?在哪里以及如何?
标签: json amazon-web-services pyspark aws-glue