【发布时间】:2021-10-15 22:29:15
【问题描述】:
我通过安装在 Databricks 中并创建一个表(“使用 delta”)连接到 Azure gen 2 数据湖中的一个 delta 表。然后我使用 Databricks 连接器在 Power BI 中连接到此。
首先,我不清楚 Databricks 中数据湖和 Spark 表之间的关系。 Spark表每次自己查询时都从数据湖(delta湖)中检索最新的快照是否正确?是不是也不能通过对 Spark 表的操作来影响数据湖的变化?
其次,减少 Spark 表中列的最佳方法是什么(最好是在将其读入 Power BI 之前)?我尝试使用指定的列子集创建 Spark 表,但出现无法更改架构错误。相反,我可以创建另一个从第一个 Spark 表中选择的 Spark 表,但这似乎效率很低,并且(我认为)需要根据 Power BI 报告的刷新计划频繁地重新创建。我不知道是否有可能有一个 Spark delta 表引用另一个 Spark Delta 表,以便前者在查询时也始终是最新的快照?
如您所知,我对此的理解是有限的(文档也是如此!)但非常感谢任何指针。
提前感谢您的阅读!
【问题讨论】:
标签: apache-spark powerbi databricks azure-data-lake delta-lake