【发布时间】:2017-12-31 05:59:42
【问题描述】:
我在用于 Spark 流的 Python API 中使用 textFileStream() 方法在创建 XML 文件时读取它们,将它们映射到 XML ElementTree,从 ElementTree 和 flatMap 中获取“有趣”的项目将它们放入字典(键:值),然后我执行 reduceByKey() 来汇总每个键的计数。
因此,如果键是字符串网络名称,则值可能是数据包计数。减少后,我的字典中只剩下每个网络(键)的总数据包数。
我的问题是我无法流式传输此内容。它每次都重新计算计算,而不是保持运行总数。我认为这对我来说是一个典型问题,但我想知道是否有人可以帮助我正确地流式传输此分析,谢谢!
【问题讨论】:
-
请提供一个可重现的示例,说明您到目前为止所做的具体尝试
标签: apache-spark pyspark spark-streaming