【问题标题】:Read only first few rows or header in sqlContext只读取 sqlContext 中的前几行或标题
【发布时间】:2017-03-06 10:03:36
【问题描述】:

https://github.com/databricks/spark-csv 所述, 我也在读csv

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')

是否有任何选项可以仅读取标题或仅读取前几行。 基本上我只想检查数据框中是否存在特定列?

【问题讨论】:

  • 当我们从 csv 加载数据帧时,即步骤: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema=' true').load('cars.csv') 是否会将整个数据加载到内存中?

标签: csv pyspark pyspark-sql


【解决方案1】:

如果 header 选项设置为 true,那么您可以使用:

df.first()

这样会返回标题行。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-15
    相关资源
    最近更新 更多