【发布时间】:2017-11-05 21:37:35
【问题描述】:
我试图了解以下两个中的哪一个是更好的选择,尤其是在 Spark 环境中:
- 将 parquet 文件直接加载到数据框中并访问数据(1TB 数据表)
- 使用任何数据库来存储和访问数据。
我正在研究数据管道设计,并试图了解以上两个选项中的哪一个会产生更优化的解决方案。
【问题讨论】:
-
您有 1TB 的内存来使用 Spark 存储数据吗?
-
1TB 是我正在处理的数据的总大小。
-
Spark 更喜欢内存中可用的所有内容。该数据是压缩的还是原始的?镶木地板还是纯文本?你甚至在比较什么数据库?您针对什么用例进行优化?
-
数据为 Parquet 格式。对于数据库,我正在考虑使用 Amazon Aurora/Hive(HDFS 基础)
-
您打算如何加载这 1 TB 的数据?它目前在 HDFS 中吗?值得指出 - Hive 不是数据库,真的。它是对 HDFS 文件的 SQL 框架抽象
标签: apache-spark parquet