【发布时间】:2019-04-29 09:08:48
【问题描述】:
从 Spark 2.4.0 开始,可以在没有外部 jar 的情况下保存为 AVRO。但是我根本无法让它工作。我的代码如下所示:
key = 'filename.avro'
df.write.mode('overwrite').format("avro").save(key)
我收到以下错误:
pyspark.sql.utils.AnalysisException: 'Failed to find data source: avro. Avro is built-in but external data source module since Spark 2.4. Please deploy the application as per the deployment section of "Apache Avro Data Source Guide".;'
所以我查看了 Apache Avro 数据源指南 (https://spark.apache.org/docs/latest/sql-data-sources-avro.html),它提供了以下示例:
df=spark.read.format("avro").load("examples/src/main/resources/users.avro")
df.select("name","favorite_color").write.format("avro").save("namesAndFavColors.avro")
它是一样的,所以我迷路了..有人知道出了什么问题吗?
【问题讨论】:
标签: python apache-spark pyspark avro