【问题标题】:Kafka Stream to Spark Stream pythonKafka Stream 到 Spark Stream python
【发布时间】:2018-10-09 06:15:34
【问题描述】:

我们有使用 Avro 的 Kafka 流。我需要将它连接到 Spark Stream。 我使用下面的代码作为Lev G 建议。

kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message) 

当我通过 spark-submit 执行它时出现以下错误。

2018-10-09 10:49:27 WARN YarnSchedulerBackend$YarnSchedulerEndpoint:66 - 请求驱动程序删除执行程序 12 原因容器标记为失败:主机上的容器_1537396420651_0008_01_000013:server_name。退出状态:1.诊断:[2018-10-09 10:49:25.810]容器启动异常。 容器编号:container_1537396420651_0008_01_000013 退出代码:1

[2018-10-09 10:49:25.810]

[2018-10-09 10:49:25.811]容器以非零退出代码 1 退出。错误文件:prelaunch.err。 prelaunch.err 的最后 4096 字节:

stderr 的最后 4096 字节:

Java HotSpot(TM) 64 位服务器 VM 警告:INFO: os::commit_memory(0x00000000d5580000, 702545920, 0) 失败; error='无法分配内存' (errno=12)

[2018-10-09 10:49:25.822]

[2018-10-09 10:49:25.822]容器以非零退出代码 1 退出。错误文件:prelaunch.err。

prelaunch.err 的最后 4096 字节: stderr 的最后 4096 字节:

Java HotSpot(TM) 64 位服务器 VM 警告:INFO: os::commit_memory(0x00000000d5580000, 702545920, 0) 失败; error='无法分配内存' (errno=12)

我使用了下面的命令。

spark-submit --master yarn --py-files ${BIG_DATA_LIBS}v3io-py.zip --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 --jars ${BIG_DATA_LIBS}v3io-hcfs_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-object-dataframe_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-streaming_2.11.jar ${APP_PATH}/${SCRIPT_PATH}/kafka_to_spark_stream.py

所有变量都正确导出。这是什么错误?

【问题讨论】:

    标签: apache-spark pyspark spark-streaming spark-submit stream-processing


    【解决方案1】:

    可能是您没有在驱动程序/执行程序上分配足够的内存来处理流?

    【讨论】:

      猜你喜欢
      • 2017-03-05
      • 1970-01-01
      • 2016-05-27
      • 1970-01-01
      • 2017-04-07
      • 2019-04-30
      • 2018-02-07
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多