【发布时间】:2020-05-13 20:31:46
【问题描述】:
我有一个存储桶,里面有一些小的 Parquet 文件,我想将它们合并成一个更大的文件。
为了完成这项任务,我想创建一个 spark 作业来消耗和写入一个新文件。
from pyspark import SparkContext
from pyspark.sql import SparkSession, SQLContext
spark = SparkSession.builder \
.master("local") \
.appName("Consolidated tables") \
.getOrCreate()
spark._jsc.hadoopConfiguration().set("fs.s3a.access.key", "access")
spark._jsc.hadoopConfiguration().set("fs.s3a.secret.key", "secret")
df = spark.read.parquet("s3://lake/bronze/appx/contextb/*")
此代码向我抛出异常:No FileSystem for scheme: s3。如果我切换到s3a://...,则会收到错误:Class org.apache.hadoop.fs.s3a.S3AFileSystem not found。
我正在尝试将此代码作为python myfile.py 运行。
有什么问题吗?
【问题讨论】:
标签: python apache-spark pyspark