【问题标题】:Saving/Exporting the results of a Spark SQL Zeppelin query保存/导出 Spark SQL Zeppelin 查询的结果
【发布时间】:2017-01-14 13:09:53
【问题描述】:

我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询,它们有大量的结果从它们返回,并且想要在 zeppelin 中运行查询但保存结果(显示限制为 1000)。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中?

【问题讨论】:

    标签: apache-spark-sql apache-zeppelin


    【解决方案1】:

    我设法使用 scala 解释器创建了一个可以有效执行我想要的操作的笔记本。

    z.load("com.databricks:spark-csv_2.10:1.4.0")
    val df= sqlContext.sql("""
    select * from table
    """)
    
    df.repartition(1).write
        .format("com.databricks.spark.csv")
        .option("header", "true")
        .save("s3://amazon.bucket.com/csv_output/")
    

    值得一提的是 z.load 函数似乎有一天对我有用,但后来我又试了一次,由于某种原因,我不得不用 %dep 解释器在自己的段落中声明它,然后在标准的 scala 解释器

    【讨论】:

    • 谢谢! FWIW 在我的上下文中,我根本不需要加载 databricks 模块。
    猜你喜欢
    • 2018-12-17
    • 2021-04-29
    • 2017-04-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-02-13
    • 2018-07-16
    相关资源
    最近更新 更多