【发布时间】:2022-09-25 09:17:05
【问题描述】:
我已经为 Azure Data Lake Storage Gen2 创建了一个外部表。
Container 有大约 200K Json 文件。
json文件的结构是用
CREATE EXTERNAL TABLE IF NOT EXISTS dbo.table(
ComponentInfo STRUCT<ComponentHost: STRING, ComponentId: STRING, ComponentName: STRING, ComponentVersion: STRING, SubSystem: STRING>,
CorrelationId STRING,
Event STRUCT<Category: STRING, EventName: STRING, MessageId: STRING, PublishTime: STRING, SubCategory: STRING>,
References STRUCT<CorrelationId: STRING>)
USING org.apache.spark.sql.json OPTIONS (\'multiLine\' = \'true\')
LOCATION \'dbfs:/mnt/mnt\'
计数需要很长时间才能运行,并且仍处于第 62 阶段,有 754 个任务。加载前 200 名很好,但是否存在需要解决的错误设置。是否应该分区?
select count(*) from dbo.table
标签: pyspark databricks azure-databricks azure-data-lake-gen2 external-tables