【发布时间】:2017-11-25 15:04:35
【问题描述】:
使用 spark 复制大型关系表的内容然后以 parquet 格式(不使用 sqoop)写入分区 Hive 表的最节省内存的方法是什么。我有一个基本的 spark 应用程序,我已经使用 spark 的 jdbc 进行了一些其他调整,但是关系表中的数据仍然是 0.5 TB 和 20 亿条记录,所以我虽然可以延迟加载整个表,但我试图弄清楚如何有效地按日期分区并保存到 hdfs 而不会遇到内存问题。因为来自 spark 的 jdbc load() 会将所有内容加载到内存中,所以我正在考虑循环访问数据库查询中的日期,但仍然不确定如何确保我不会耗尽内存。
【问题讨论】:
-
你得到这个问题的答案了吗?
标签: apache-spark hive hdfs apache-spark-sql spark-dataframe