【问题标题】:Create a local sparksession when databricks is installed安装 databricks 时创建本地 sparksession
【发布时间】:2021-03-02 15:59:11
【问题描述】:

我成功安装了 databricks-connect 并且它对我来说工作正常,但由于某些原因,我想使用本地 SparkSession ,所以只需运行 SparkSeesion.builder.getOrCreate() 它将在我的笔记本电脑中使用 databricks 集群而不是本地会话, 任何想法,请不要创建新的 virtualenv,

谢谢

【问题讨论】:

    标签: databricks databricks-connect


    【解决方案1】:

    这是 Databricks 连接的默认行为 - 即使主服务器是本地的,它也始终使用远程执行程序。但是你真的需要它来开发吗?标准方法可能是在本地使用 pyspark,并从 CI/CD 管道在 Databricks 上运行测试——cicd-templates project 演示了这种方法,其中单元测试在本地使用 pyspark 执行,集成测试——在 Databricks 集群上,由触发CI/CD 管道

    【讨论】:

    • 这正是我想要做的,但是由于我的 venv 中配置了 databricks,所以当我创建 sparkSession 时,它总是会使用远程执行程序,我创建的唯一解决方案是创建另一个没有 databricks 的 venv并在我想要本地 pysparkSession 时切换到它
    猜你喜欢
    • 2021-02-19
    • 1970-01-01
    • 2021-11-11
    • 2022-01-23
    • 1970-01-01
    • 2018-09-29
    • 2022-10-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多