【发布时间】:2016-05-12 12:39:04
【问题描述】:
我正在运行 Spark Notebook 以将 DataFrame 作为 Parquet 文件保存在 Bluemix 对象存储中。
我想在重新运行笔记本时覆盖 Parquet 文件。但实际上它只是附加数据。
下面是 iPython 代码示例:
df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")
【问题讨论】:
标签: apache-spark ipython ibm-cloud parquet object-storage