【发布时间】:2015-01-20 10:05:22
【问题描述】:
我是引发流媒体的初学者。所以对检查点有一个基本的怀疑。我的用例是按天计算唯一用户数。我为此使用按键和窗口减少。我的窗口持续时间是 24 小时,幻灯片持续时间是 5 分钟。我正在将处理后的记录更新到 mongodb。目前我每次都替换现有记录。但我看到内存随着时间的推移慢慢增加,并在 1 和 1/2 小时后终止进程(在 aws 小实例中)。重启后的 DB 写入会清除所有旧数据。所以我知道检查点是解决这个问题的方法。但我的怀疑是
感谢您的帮助。
谢谢
【问题讨论】:
标签: apache-spark spark-streaming