“风暴”数据处理能力答案

【问题标题】："Storm" data handling capability“风暴”数据处理能力
【发布时间】：2012-11-06 10:22:58
【问题描述】：

对于我们每天必须处理最少“2-3 TB”数据的业务用例，我正在对“Hadoop & Storm”进行分析。

毋庸置疑，“Storm”看起来令人印象深刻，因为它处理传入的大数据的效率很高，但我不确定“Storm”是否有能力处理“TB”的数据，同时为我提供真实的-时间结果与否？

谁能解释一下？

谢谢，加金德拉

【问题讨论】：

艾字节？到底是什么占用了这么多空间？
我不知道 anything 是否可以每天处理 EB，您需要相当多的硬件才能获取数据，更不用说做任何类型的分析了。例如，Google 可能每天处理几 EB 的数据，并且他们拥有一百万台服务器。祝你好运。
刚刚确认它不会是艾字节，而是几TB
您的要求是什么？实时还是批量分析？
取决于业务功能。很少有像运营和项目管理这样的业务功能需要实时分析，而其他业务功能可以使用批处理。但无论哪种情况，数据都会非常庞大，我可以向您保证。因此，如果实时分析无法处理我庞大的业务数据，那么就没有逻辑可以继续进行下去。在那种情况下，我想我只能接受批量分析。

【解决方案1】：

Storm 由 Twitter 开发。他们每天处理超过 8 TB 的数据。听起来这对您的情况应该足够了。 Afaik Storm 是分布式计算的最佳流/实时系统。由于作业启动时间和流数据的原生处理，hadoop 不适合它。

事实是，当您有足够的服务器电源和存储等时，两者都可以处理您希望的每天数据。

【讨论】：