保存/导出 Spark SQL Zeppelin 查询的结果

【问题标题】：Saving/Exporting the results of a Spark SQL Zeppelin query保存/导出 Spark SQL Zeppelin 查询的结果
【发布时间】：2017-01-14 13:09:53
【问题描述】：

我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询，它们有大量的结果从它们返回，并且想要在 zeppelin 中运行查询但保存结果（显示限制为 1000）。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中？

【问题讨论】：

标签： apache-spark-sql apache-zeppelin

【解决方案1】：

我设法使用 scala 解释器创建了一个可以有效执行我想要的操作的笔记本。

z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")

df.repartition(1).write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .save("s3://amazon.bucket.com/csv_output/")

值得一提的是 z.load 函数似乎有一天对我有用，但后来我又试了一次，由于某种原因，我不得不用 %dep 解释器在自己的段落中声明它，然后在标准的 scala 解释器

【讨论】：

谢谢！ FWIW 在我的上下文中，我根本不需要加载 databricks 模块。