【发布时间】:2020-03-13 01:16:50
【问题描述】:
我正在尝试使用 R 连接到存储有一些 CSV 文件的 Azure Blob。在将它们写回另一个 Blob 容器之前,我需要将它们加载到数据框中并对它们进行一些转换。我正在尝试通过 Databricks 执行此操作,因此我最终可以从 Data Factories 调用此笔记本并将其包含在管道中。
Databricks 给了我一个 Python 示例笔记本,可以使用以下代码建立连接:
storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)
R中有类似的东西吗?我可以在 R 中使用 SparkR 或 Sparklyr 包,如果它可以帮助我加载文件并将其放入 Spark 数据帧中。
【问题讨论】:
标签: r azure blob databricks azure-data-lake