【发布时间】:2015-06-10 02:56:36
【问题描述】:
我正在尝试使用 Hadoop 2.4 和 Spark 1.3.1 在 EMR (AMI 3.6) 上运行一些简单的作业。我在没有引导脚本的情况下手动安装了 Spark。目前我正在尝试从 S3 读取和处理数据,但似乎我的类路径上缺少无数的 jar。
在 spark-shell 上运行命令。使用以下方式启动 shell:
spark-shell --jars jar1.jar,jar2.jar...
在 shell 上运行的命令:
val lines = sc.textFile("s3://folder/file.gz")
lines.collect()
错误总是类似于:“找不到类 xyz”。在找到所需的 jar 并将其添加到类路径后,我将再次收到此错误,但错误消息中的类名不同。
是否需要一组 jar 来处理(压缩和未压缩的)S3 文件?
【问题讨论】:
-
您是如何构建应用程序 jar 的?
-
没有应用程序 jar。在外壳上运行。
-
您是否将这些库添加到您的 spark-shell 中?你怎么吃你的火花壳?你能用你正在使用的命令更新吗?
-
更新为显示启动 spark-shell 的命令
-
那么当你启动你的shell时你有类似下面的东西吗?
SparkContext: Added JAR file:/path/to/jar/jar1.jar at http://host:port/jars/jar1.jar with timestamp 1432826782616
标签: hadoop amazon-s3 apache-spark emr