【问题标题】:Connecting PySpark from a docker container to a local machine's hive table将 PySpark 从 docker 容器连接到本地机器的配置单元表
【发布时间】:2018-12-31 06:42:06
【问题描述】:

我已经使用 Pyspark 构建了一个决策树模型,我想使用 docker 容器部署该模型。我正在使用火花 1.6.0。数据存储在 Hive 表中,并且位于我的本地计算机中。有没有办法将 PySpark 从我的 docker 容器连接到我本地机器中的 hive 表?

我的 Hive 表中的数据可能会更新,因此我不想挂载驱动器或只是将文件夹从本地复制到我的容器,而是在 PySpark 和 Hive 表之间建立连接。

【问题讨论】:

    标签: docker hive pyspark


    【解决方案1】:

    如果数据位于本地,您仍然可以在 docker 容器中运行 Hive,并将本地文件夹挂载到 Hive 容器中。

    使用docker-compose,您可以轻松链接容器并通过localhost访问Hive服务器

    另一个选项是在运行 PySpark 容器时使用--network="host",它将通过主机网络进行网络连接。 出于安全原因,可能不是您想要的,具体取决于您的操作。

    From inside of a Docker container, how do I connect to the localhost of the machine?

    【讨论】:

    • 您好,感谢您的回答。我尝试使用 --network="host" 但仍然无法访问本地 Hadoop 文件。我可以从容器 ping 到本地,但无法访问文件。
    • 从本地到 Hive 你可以访问文件吗?如果没有,这不是码头问题。如果可以,则可能是容器内用户的权限问题。
    猜你喜欢
    • 2021-06-17
    • 2015-11-28
    • 1970-01-01
    • 2017-06-13
    • 1970-01-01
    • 2019-06-26
    • 2023-03-07
    • 2022-11-19
    • 2017-10-03
    相关资源
    最近更新 更多