【发布时间】:2019-04-25 13:48:24
【问题描述】:
我已经创建了一个 SparkContext 和一个 Spark 全局变量。当我阅读 ORC 文件时,我可以像 spark.read.format("orc").load("filepath") 一样简单地阅读它们,但是,对于 avro,即使我尝试像这样导入 jar,我似乎也不能这样做:
spark.conf.set("spark.jars.packages",
"file:///projects/apps/lib/spark-avro_2.11-3.2.0.jar")
错误:
and then try to read the avro file. I get an error like so:
Py4JJavaError: An error occurred while calling o65.load.
: org.apache.spark.sql.AnalysisException: Failed to find data source: avro. Please find an Avro package at http://spark.apache.org/third-party-projects.html;
【问题讨论】:
-
你检查过这个链接吗:stackoverflow.com/questions/46434255/…
-
@Starfight 该链接用于 spark-shell,Jupyter notebook 需要它
-
我明白了,但是贡献者建议使用
com.databricks.spark.avro而不是avro,也许很有趣?
标签: python apache-spark pyspark jupyter-notebook