【发布时间】:2019-04-11 08:30:08
【问题描述】:
我正在通过 Databricks 上的 Python SDK 从 Google Admin Report User Usage Api 取回用户使用数据。数据大小约为每天 100 000 条记录,我通过批处理进行了一个晚上。该 api 返回的最大页面大小为 1000,因此我粗略地将其称为 1000 以获取我当天需要的数据。这工作正常。
我的最终目标是以原始格式将数据存储在数据湖中(Azure Gen2,但与此问题无关)。稍后,我将使用 Databricks 将数据转换为聚合报告模型,并将 PowerBI 置于其之上,以跟踪 Google App 的使用情况。
作为一名 C# 程序员,我是 Python 和 Spark 的新手:我目前的做法是从 api 请求 1000 条记录的第一页,然后将其作为 JSON 文件直接写入 datalake,然后获取下一个页面集和也写那个。文件夹结构类似于“\raw\googleuser\YYYY\MM\DD\data1.json”。
我希望在原始区域中尽可能以最原始的形式保存数据,并且不要应用太多转换。第二个过程可以提取我需要的字段,用元数据标记它并将其写回 Parquet 以供函数使用。这就是为什么我想把它写成 JSON。
这意味着第二个过程需要将 JSON 读取到数据帧中,我可以在其中对其进行转换并将其写入 parquet(这部分也很简单)。
因为我使用的是 Google Api,所以我没有使用 Json - 它返回 dict 对象(具有复杂的嵌套)。我可以使用 json.dump() 将其提取为 Json 字符串,但我无法弄清楚如何将 STRING 直接写入我的数据湖。一旦我将它放入数据帧,我就可以轻松地以任何格式编写它,但是将它从 Json 转换为数据帧然后基本上返回 Json 只是为了编写它似乎是一种性能开销。
这是我尝试过的事情和结果:
- 建立一个 pyspark.sql.Rows 列表并在所有分页(100k 行)的末尾 - 使用 spark.createDataFrame(rows) 将其转换为数据帧。一旦它是一个数据框,我就可以将它保存为一个 Json 文件。这可行,但似乎效率低下。
-
使用 json.dump(request) 获取 Json 中 1000 条记录的字符串。我可以使用以下代码将其写入 Databricks 文件系统:
with open("/dbfs/tmp/googleuserusagejsonoutput-{0}.json" .format(keyDateFilter), 'w') as f: f.write(json.dumps(response))但是,我必须将其移至我的 Azure 数据湖:
dbutils.fs.cp("/tmp/test_dbfs1.txt", datalake_path + dbfs_path + "xyz.json")然后我得到接下来的 1000 条记录并继续这样做。我似乎无法将 open() 方法目录用于数据湖存储(Azure abfss 驱动程序),否则这将是一个不错的解决方案。先在本地转储,然后再移动,似乎很脆弱,也很奇怪。
与选项 1 相同,但每隔 1000 条记录将数据帧转储到 datalake 并覆盖它(这样内存一次不会增加超过 1000 条记录)
忽略转储原始 Json 的规则。将数据按摩成我想要的最简单的格式,并删除我不需要的所有额外数据。这将导致占用空间小得多,然后将遵循上面的选项 1 或 3。 (这是第二个问题 - 以原始格式保存来自 Api 的所有数据的原则,以便随着时间的推移需求发生变化,我总是在数据湖中拥有历史数据,并且可以更改转换例程以从中提取不同的指标因此,我不愿意在这个阶段删除任何数据。
请多多指教...
【问题讨论】:
标签: python apache-spark azure-data-lake databricks google-api-python-client