【问题标题】:Apache beam word count example with spark runner fails with " Unknown 'runner' specified 'SparkRunner'"带有 spark runner 的 Apache Beam 字数统计示例失败,并显示“Unknown 'runner' specified 'SparkRunner'”
【发布时间】:2017-07-06 20:03:19
【问题描述】:
我正在尝试通过给出以下命令来提交 Apache Beam 字数统计示例
spark-submit --class org.apache.beam.examples.WordCount word-count-beam-0.1.jar --inputFile=pom.xml --output=counts --runner=SparkRunner
我得到以下异常:
线程“主”java.lang.IllegalArgumentException 中的异常:未知
'runner' 指定'SparkRunner',支持的管道运行器
[DirectRunner]
【问题讨论】:
标签:
apache-spark
apache-beam
【解决方案1】:
您的 pom.xml 需要包含对 Spark 运行器的依赖项。有关使用 Spark runner 的文档包含有关必要内容的更多详细信息。
【解决方案2】:
看起来您没有构建具有必要 Spark 依赖项的 Uber-jar。
重新运行您的 Maven 包,如下所示:
mvn package -Pspark-runner
这将在 target 中构建一个 Jar,其中包含 wordcount 类以及所有必要的 spark 依赖项,例如:
word-count-beam-bundled-0.1.jar
然后在spark-submit 命令中使用那个jar