【问题标题】:Moving a json file from databricks to blob storage将 json 文件从 databricks 移动到 blob 存储
【发布时间】:2020-07-05 01:50:45
【问题描述】:

我在 databricks 中创建了一个挂载,它连接到我的 blob 存储,我可以使用笔记本将文件从 blob 读取到 databricks。

然后我使用 pyspark 将 .txt 转换为 json 格式,现在我想将其加载回 blob 存储。有谁知道我会怎么做?

以下是我尝试过的一些事情:

my_json.write.option("header", "true").json("mnt/my_mount/file_name.json")

write.json(my_json, mnt/my_mount)

都不行。我可以使用以下方法将 csv 文件从数据块加载到 blob:

my_data_frame.write.option("header", "true").csv("mnt/my_mount_name/file name.csv")

这很好用,但我找不到移动 json 的解决方案。

有什么想法吗?

【问题讨论】:

    标签: json pyspark pyspark-sql databricks azure-databricks


    【解决方案1】:

    免责声明:我是 pySpark 的新手,但这就是我所做的。

    这是我参考文档pyspark.sql.DataFrameWriter.json后所做的

    
    # JSON
    my_dataframe.write.json("/mnt/my_mount/my_json_file_name.json")
    
    # For a single JSON file
    my_dataframe.repartition(1).write.json("/mnt/my_mount/my_json_file_name.json")
    
    # Parquet
    my_dataframe.write.mode("Overwrite").partitionBy("myCol").parquet("/mnt/my_mount/my_parquet_file_name.parquet")
    
    
    

    【讨论】:

      猜你喜欢
      • 2017-08-18
      • 2021-11-28
      • 2018-01-25
      • 1970-01-01
      • 2017-01-19
      • 2018-09-25
      • 2021-07-11
      • 1970-01-01
      • 2020-02-29
      相关资源
      最近更新 更多