【发布时间】:2017-01-14 13:09:53
【问题描述】:
我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询,它们有大量的结果从它们返回,并且想要在 zeppelin 中运行查询但保存结果(显示限制为 1000)。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中?
【问题讨论】:
标签: apache-spark-sql apache-zeppelin
我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询,它们有大量的结果从它们返回,并且想要在 zeppelin 中运行查询但保存结果(显示限制为 1000)。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中?
【问题讨论】:
标签: apache-spark-sql apache-zeppelin
我设法使用 scala 解释器创建了一个可以有效执行我想要的操作的笔记本。
z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")
df.repartition(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save("s3://amazon.bucket.com/csv_output/")
值得一提的是 z.load 函数似乎有一天对我有用,但后来我又试了一次,由于某种原因,我不得不用 %dep 解释器在自己的段落中声明它,然后在标准的 scala 解释器
【讨论】: