【发布时间】:2018-02-23 11:50:06
【问题描述】:
我在 lubuntu 16.04 上使用带有 spark 2.2.0 的 pyspark,我想将 Dataframe 写入我的 Postgresql 数据库。现在据我了解,我必须在 spark master 上安装一个 jdbc 驱动程序。我从他们的网站下载了 postgresql jdbc 驱动程序并尝试关注this post。我将spark.jars.packages /path/to/driver/postgresql-42.2.1.jar 添加到spark-default.conf,唯一的结果是pyspark 不再启动。
我有点迷失在 java 领域,我不知道这是否是正确的格式。文档告诉我应该添加一个列表,但我不知道路径列表应该是什么样子。那我不知道我是否还必须指定spark.jars 和或spark.driver.extraClassPath 或者spark.jars.packages 是否足够?如果我必须添加它们,它们是什么格式?
【问题讨论】:
标签: apache-spark jdbc pyspark pyspark-sql