【发布时间】:2016-01-27 18:25:10
【问题描述】:
我有一个糟糕的 HTTPD access_log,只想跳过“糟糕”的行。
在 scala 中这很简单:
import scala.util.Try
val log = sc.textFile("access_log")
log.map(_.split(' ')).map(a => Try(a(8))).filter(_.isSuccess).map(_.get).map(code => (code,1)).reduceByKey(_ + _).collect()
对于 python,我通过使用“lambda”表示法显式定义一个函数来获得以下解决方案:
log = sc.textFile("access_log")
def wrapException(a):
try:
return a[8]
except:
return 'error'
log.map(lambda s : s.split(' ')).map(wrapException).filter(lambda s : s!='error').map(lambda code : (code,1)).reduceByKey(lambda acu,value : acu + value).collect()
在 pyspark 中是否有更好的方法(例如在 Scala 中)?
非常感谢!
【问题讨论】:
标签: python scala apache-spark pyspark