【问题标题】:Infer an schema to DataFrame pyspark将模式推断到 DataFrame pyspark
【发布时间】:2021-07-05 01:15:06
【问题描述】:

我见过很多 scala 或其他类型文件的解决方案。但是如何使用 pyspark 在 python 中将模式推断为加载 DataFrame、csv 文件。

df = spark.read.csv('dataset.csv')

如果我检查架构,所有列都是字符串。我可以逐列更改,但我想有更好的方法。

【问题讨论】:

    标签: python dataframe pyspark load


    【解决方案1】:

    我找到了。我把它留在这里,以防有人有同样的疑问。有写栏的地方要写栏名。

    schema = StructType([
        StructField("column1", FloatType(), nullable=True),
        StructField("column2", FloatType(), nullable=True),
        StructField("column3", IntegerType(), nullable=True),
        StructField("column4", DoubleType(), nullable=True),
    )
    

    最快的方法是推断Schema并设置列类型。我想它可能会出错,创建DataFrame后检查它

    df = spark.read.csv('dataset.csv',  inferSchema = True)
    

    【讨论】:

      猜你喜欢
      • 2020-07-24
      • 2018-03-27
      • 1970-01-01
      • 2016-09-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多