【问题标题】:"Storm" data handling capability“风暴”数据处理能力
【发布时间】:2012-11-06 10:22:58
【问题描述】:

对于我们每天必须处理最少“2-3 TB”数据的业务用例,我正在对“Hadoop & Storm”进行分析。

毋庸置疑,“Storm”看起来令人印象深刻,因为它处理传入的大数据的效率很高,但我不确定“Storm”是否有能力处理“TB”的数据,同时为我提供真实的-时间结果与否?

谁能解释一下?

谢谢, 加金德拉

【问题讨论】:

  • 艾字节?到底是什么占用了这么多空间?
  • 我不知道 anything 是否可以每天处理 EB,您需要相当多的硬件才能获取数据,更不用说做任何类型的分析了。例如,Google 可能每天处理几 EB 的数据,并且他们拥有一百万台服务器。祝你好运。
  • 刚刚确认它不会是艾字节,而是几TB
  • 您的要求是什么?实时还是批量分析?
  • 取决于业务功能。很少有像运营和项目管理这样的业务功能需要实时分析,而其他业务功能可以使用批处理。但无论哪种情况,数据都会非常庞大​​,我可以向您保证。因此,如果实时分析无法处理我庞大的业务数据,那么就没有逻辑可以继续进行下去。在那种情况下,我想我只能接受批量分析。

标签: hadoop bigdata apache-storm


【解决方案1】:

Storm 由 Twitter 开发。他们每天处理超过 8 TB 的数据。听起来这对您的情况应该足够了。 Afaik Storm 是分布式计算的最佳流/实时系统。由于作业启动时间和流数据的原生处理,hadoop 不适合它。

事实是,当您有足够的服务器电源和存储等时,两者都可以处理您希望的每天数据。

【讨论】:

  • 感谢“merando”的回复。
猜你喜欢
  • 2013-12-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-11-09
  • 2017-03-17
  • 1970-01-01
相关资源
最近更新 更多