【发布时间】:2018-04-12 17:47:27
【问题描述】:
另一个基本错误
我正在尝试在 spark 上下文中读取文件并通过执行此操作跳过文件的标题
scala> val read = sc.textFile("/user/edureka/data/ls2014.tsv")
scala> val header = read.first
scala> val data = read.filter(row => (row != header))
使用这些我得到错误“org.apache.spark.SparkException: Task not serializable”。
序列化在这种情况下是如何工作的..想知道基本的以及为什么在这里出错。
注意:我知道还有其他方法可以跳过文件的标题。但是,我想知道在这种情况下序列化的概念。请分享您的观点。
【问题讨论】:
标签: apache-spark read-eval-print-loop