【发布时间】:2015-09-14 17:08:39
【问题描述】:
我是 Spark 和 Spark Streaming 的新手。我正在处理 Twitter 流数据。我的任务涉及独立处理每条推文,例如计算每条推文中的字数。根据我的阅读,Spark Streaming 中 RDD 上的每个输入批处理表单。因此,如果我给出 2 秒的批处理间隔,那么新的 RDD 包含两秒内的所有推文,并且应用的任何转换都将应用于整个两秒的数据,并且无法在这两秒内处理单个推文。我的理解正确吗?或者每条推文都会形成一个新的RDD?我有点迷茫……
【问题讨论】:
标签: scala twitter apache-spark twitter4j spark-streaming