【发布时间】:2015-05-05 05:37:43
【问题描述】:
测试用例:Spark 在 20+ 秒内对 6G 数据进行字数统计。
我了解 MapReduce、FP 和 stream 编程模型,但无法弄清楚字数统计速度如此惊人。
我认为这种情况下是 I/O 密集型计算,不可能在 20+ 秒内扫描 6G 文件。我猜想在字数统计之前执行索引,就像 Lucene 一样。魔法应该在我不太了解的 RDD(弹性分布式数据集)设计中。
如果有人能解释 RDD 的字数统计情况,我将不胜感激。谢谢!
【问题讨论】:
-
你用了多少台电脑?
标签: parallel-processing streaming apache-spark bigdata rdd