【发布时间】:2018-03-24 09:37:25
【问题描述】:
我的 RDBMS 数据库中有一个巨大的表,其中包含不同帐户类型的记录。 我将这些数据加载到 spark 一次,然后会根据帐户类型在此表上循环几次以生成一些报告。
我已在此表上创建了一个临时全局视图。
df.createOrReplaceGlobalTempView("account_tbl")
现在,我想根据 account_type 列将这个视图划分为多个分区,其中数据被分成块,所以每次我在这个视图上循环一个 account_type 时,我只想选择那个特定的分区。
在该特定列上重新分区可以轻松解决这个问题吗?如果是,我是否需要重新分区 df 然后创建一个全局临时视图,或者我不确定。 而且,我如何确保每次循环时只选择那个特定的分区。 请指教。
【问题讨论】:
标签: apache-spark apache-spark-sql spark-dataframe apache-spark-dataset