【发布时间】:2021-07-05 01:15:06
【问题描述】:
我见过很多 scala 或其他类型文件的解决方案。但是如何使用 pyspark 在 python 中将模式推断为加载 DataFrame、csv 文件。
df = spark.read.csv('dataset.csv')
如果我检查架构,所有列都是字符串。我可以逐列更改,但我想有更好的方法。
【问题讨论】:
标签: python dataframe pyspark load
我见过很多 scala 或其他类型文件的解决方案。但是如何使用 pyspark 在 python 中将模式推断为加载 DataFrame、csv 文件。
df = spark.read.csv('dataset.csv')
如果我检查架构,所有列都是字符串。我可以逐列更改,但我想有更好的方法。
【问题讨论】:
标签: python dataframe pyspark load
我找到了。我把它留在这里,以防有人有同样的疑问。有写栏的地方要写栏名。
schema = StructType([
StructField("column1", FloatType(), nullable=True),
StructField("column2", FloatType(), nullable=True),
StructField("column3", IntegerType(), nullable=True),
StructField("column4", DoubleType(), nullable=True),
)
最快的方法是推断Schema并设置列类型。我想它可能会出错,创建DataFrame后检查它
df = spark.read.csv('dataset.csv', inferSchema = True)
【讨论】: