【发布时间】:2015-07-02 21:12:35
【问题描述】:
我两次运行一个动作,第二次运行时间很少,所以我怀疑spark会自动缓存一些结果。但我确实找到了任何来源。
我正在使用 Spark1.4。
doc = sc.textFile('...')
doc_wc = doc.flatMap(lambda x: re.split('\W', x))\
.filter(lambda x: x != '') \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda x,y: x+y)
%%time
doc_wc.take(5) # first time
# CPU times: user 10.7 ms, sys: 425 µs, total: 11.1 ms
# Wall time: 4.39 s
%%time
doc_wc.take(5) # second time
# CPU times: user 6.13 ms, sys: 276 µs, total: 6.41 ms
# Wall time: 151 ms
【问题讨论】:
标签: caching apache-spark