【发布时间】:2017-11-10 23:12:35
【问题描述】:
假设您有一个历史数据,并且每天都会向其中添加几百万行数据。需要每天处理整个数据并更新变量。您将如何使用大数据平台解决这个问题?
如果需要,很乐意提供更多详细信息。
【问题讨论】:
-
您心目中的“大数据平台”是什么? HDFS 将愉快地存储您的数据,Spark 将愉快地处理它
-
我正在考虑将 Hortonworks 作为大数据平台。但挑战在于我需要每天对整个数据集执行聚合过程。
-
为什么这是一个挑战?设置一个日常流程来做任何你想做的事情。 Hortonworks 为此提供了 Oozie
-
数据大小,目前使用RDBMS平台,每周刷新和聚合大约需要2天时间。目标是每天使用 Hadoop 平台。有意义吗?
-
如果你想要快速聚合,我可能会推荐 Solr 或 Elasticsearch。但是,可以肯定的是,任何分布式处理框架都会比单线程表扫描更快。
标签: hadoop apache-spark architecture bigdata data-processing