【发布时间】:2019-05-08 00:15:07
【问题描述】:
我有一个 Databricks 笔记本设置,如下所示;
- 到 Blob 存储帐户的 pyspark 连接详细信息
- 通过 spark 数据帧读取文件
- 转换为 pandas Df
- pandas Df 上的数据建模
- 转换为火花 Df
- 在单个文件中写入 blob 存储
我的问题是,你不能命名文件输出文件,我需要一个静态 csv 文件名。
有没有办法在 pyspark 中重命名它?
## Blob Storage account information
storage_account_name = ""
storage_account_access_key = ""
## File location and File type
file_location = "path/.blob.core.windows.net/Databricks_Files/input"
file_location_new = "path/.blob.core.windows.net/Databricks_Files/out"
file_type = "csv"
## Connection string to connect to blob storage
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
数据转换后输出文件
dfspark.coalesce(1).write.format('com.databricks.spark.csv') \
.mode('overwrite').option("header", "true").save(file_location_new)
然后将文件写入的位置为 "part-00000-tid-336943946930983.....csv"
目标是拥有 "Output.csv"
我看到的另一种方法是在 python 中重新创建它,但尚未在文档中遇到如何将文件输出回 blob 存储。
我知道从 Blob 存储中检索的方法是 .get_blob_to_path 通过microsoft.docs
非常感谢这里的任何帮助。
【问题讨论】:
标签: python azure apache-spark pyspark azure-storage