Storm 从入门到精通 第十四讲 Storm Word Count 示例讲解

统计的问题

1. 解决统计单词在文章中出现的频率问题? 
例如:Apache Storm is a free and open source distributed realtime computation system.  Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for batch processing. Storm is simple, can be used with any programming language, and is a lot of fun to use!

文章中出现频率如下:
hadoop:1次 Storm:3次  realtime:2次  processing:2次  is:3次 等等


Storm 从入门到精通 第十四讲 Storm Word Count 示例讲解


2. Topology定义

Storm 从入门到精通 第十四讲 Storm Word Count 示例讲解

上面的示意图中有4个组件,分别为一个Spout和3个Bolts。
当数据源Spout按照每一行取得文章每个句子(可以是一个句子,包含多个单词)以后,发送给 Word Split Bolt进行单词的切分
(由于英文,按照空格分词), 根据Field Grouping 策略按照Word分组完成数据流定向传输,然后由Word Count Bolt进行统计结果,
最终由Word Report Bolt记录结果(由于需要一个Bolt完成汇总,避免汇总数据分离到不同Bolt文件中,务必使用Global Grouping)。

相关文章: