【问题标题】:What would be the best approach to process 10 B rows of data on a daily basis to create variables (calculated columns)?每天处理 10 B 行数据以创建变量(计算列)的最佳方法是什么?
【发布时间】:2017-11-10 23:12:35
【问题描述】:

假设您有一个历史数据,并且每天都会向其中添加几百万行数据。需要每天处理整个数据并更新变量。您将如何使用大数据平台解决这个问题?

如果需要,很乐意提供更多详细信息。

【问题讨论】:

  • 您心目中的“大数据平台”是什么? HDFS 将愉快地存储您的数据,Spark 将愉快地处理它
  • 我正在考虑将 Hortonworks 作为大数据平台。但挑战在于我需要每天对整个数据集执行聚合过程。
  • 为什么这是一个挑战?设置一个日常流程来做任何你想做的事情。 Hortonworks 为此提供了 Oozie
  • 数据大小,目前使用RDBMS平台,每周刷新和聚合大约需要2天时间。目标是每天使用 Hadoop 平台。有意义吗?
  • 如果你想要快速聚合,我可能会推荐 Solr 或 Elasticsearch。但是,可以肯定的是,任何分布式处理框架都会比单线程表扫描更快。

标签: hadoop apache-spark architecture bigdata data-processing


【解决方案1】:

尽量不要重新处理整个 10B 行...我不知道您在这么大的数据集中究竟在寻找什么,但很可能有一个统计模型可以保存摘要信息,然后重新处理增量。

cricket_007 是对的,HDFS 和 Spark 可能是您首选的工具。

【讨论】:

  • 这更像是拥有十亿行原始数据,业务需求是每天对数据进行聚合处理以进行建模。
猜你喜欢
  • 2010-09-20
  • 1970-01-01
  • 1970-01-01
  • 2018-08-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多