启动 Spark History Server 以写入 minIO答案

【问题标题】：Starting up Spark History Server to write to minIO启动 Spark History Server 以写入 minIO
【发布时间】：2021-11-10 15:20:18
【问题描述】：

我正在尝试让 Spark History Server 在运行在 Kubernetes 上的集群上运行，并且我希望将日志写入 minIO。我还使用 minIO 作为我的 spark-submit 作业的输入和输出的存储，这已经在工作了。

当前正在工作的 spark-submit 工作

我的 spark-submit 工作如下所示：

spark-submit \
  --conf spark.hadoop.fs.s3a.access.key=XXXX \
  --conf spark.hadoop.fs.s3a.secret.key=XXXX \
  --conf spark.hadoop.fs.s3a.endpoint=https://someIpv4 \
  --conf spark.hadoop.fs.s3a.connection.ssl.enabled=true \
  --conf spark.hadoop.fs.s3a.path.style.access=true \
  --conf spark.hadoop.fs.default.name="s3a:///" \
  --conf spark.driver.extraJavaOptions="-Djavax.net.ssl.trustStore=XXXX -Djavax.net.ssl.trustStorePassword=XXXX \
  --conf spark.executor.extraJavaOptions="-Djavax.net.ssl.trustStore=XXXX -Djavax.net.ssl.trustStorePassword=XXXX \
...

如您所见，我正在使用 SSL 连接到 minIO 并读取/写入文件。

我在尝试什么

我正在尝试使用 minIO 作为存储而不使用 SSL 来启动历史服务器。

为了启动历史服务器，我使用已经存在的 start-history-server.sh 脚本和一些配置来使用 ./start-history-server.sh --properties-file my_conf_file 命令定义日志存储位置。 my_conf_file 看起来像这样：

spark.eventLog.enabled=true
spark.eventLog.dir=s3a://myBucket/spark-events
spark.history.fs.logDirectory=s3a://myBucket/spark-events
spark.hadoop.fs.s3a.access.key=XXXX
spark.hadoop.fs.s3a.secret.key=XXXX
spark.hadoop.fs.s3a.endpoint=http://someIpv4
spark.hadoop.fs.s3a.path.style.access=true
spark.hadoop.fs.s3a.connection.ssl.enabled=false

所以你看我没有添加任何 SSL 参数。但是当我运行./start-history-server.sh --properties-file my_conf_file 时，我收到了这个错误：

INFO AmazonHttpClient: Unable to execute HTTP request: Connection refused (Connection refused)
java.net.ConnectException: Connection refused (Connection refused)
        at java.net.PlainSocketImpl.socketConnect(Native Method)
        at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
        at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
        at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
        at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
        at java.net.Socket.connect(Socket.java:607)
        at org.apache.http.conn.scheme.PlainSocketFactory.connectSocket(PlainSocketFactory.java:121)
        at org.apache.http.impl.conn.DefaultClientConnectionOperator.openConnection(DefaultClientConnectionOperator.java:180)
        at org.apache.http.impl.conn.ManagedClientConnectionImpl.open(ManagedClientConnectionImpl.java:326)
        at org.apache.http.impl.client.DefaultRequestDirector.tryConnect(DefaultRequestDirector.java:610)
        at org.apache.http.impl.client.DefaultRequestDirector.execute(DefaultRequestDirector.java:445)
        at org.apache.http.impl.client.AbstractHttpClient.doExecute(AbstractHttpClient.java:835)
        at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:83)
        at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:56)
        at com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:384)
        at com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232)
        at com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528)
        at com.amazonaws.services.s3.AmazonS3Client.headBucket(AmazonS3Client.java:1031)
        at com.amazonaws.services.s3.AmazonS3Client.doesBucketExist(AmazonS3Client.java:994)
        at org.apache.hadoop.fs.s3a.S3AFileSystem.initialize(S3AFileSystem.java:297)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2669)
        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
        at org.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:117)
        at org.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:86)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
        at org.apache.spark.deploy.history.HistoryServer$.main(HistoryServer.scala:296)
        at org.apache.spark.deploy.history.HistoryServer.main(HistoryServer.scala)

我在互联网上尝试过/发现了什么

This person 有一个与我非常相似的问题，但似乎他们使用 spark.hadoop.fs.s3a.path.style.access 解决了这个问题，我已经在使用了
我能够使用本地文件系统启动历史服务器，所以它似乎工作正常
我见过有人like in this post 使用spark.hadoop.fs.s3a.impl 键和org.apache.hadoop.fs.s3a.S3AFileSystem 作为值。但是，当我这样做时，我的 AWS jar 中似乎不存在此类。
- 我可以使用以下 AWS jar：aws-java-sdk-1.7.4.jar 和 hadoop-aws-2.7.3.jar
- 由于我的 spark-submit 作业运行良好，读取/写入文件到 minIO，并且我没有在其中提供 spark.hadoop.fs.s3a.impl 参数，我认为不需要该参数？

有没有人知道我应该在哪里看/我做错了什么？

【问题讨论】：

标签： apache-spark amazon-s3 minio

【解决方案1】：

我的问题是实际上我的 minIO 不接受 http 请求。我已经工作的 spark 提交作业是使用 SSL 使用 https，所以我将所需的参数添加到 $SPARK_DAEMON_JAVA_OPTS 并且它正在工作。

【讨论】：