只读取 sqlContext 中的前几行或标题答案

【问题标题】：Read only first few rows or header in sqlContext只读取 sqlContext 中的前几行或标题
【发布时间】：2017-03-06 10:03:36
【问题描述】：

如https://github.com/databricks/spark-csv 所述，我也在读csv

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')

是否有任何选项可以仅读取标题或仅读取前几行。基本上我只想检查数据框中是否存在特定列？

【问题讨论】：

当我们从 csv 加载数据帧时，即步骤： df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema=' true').load('cars.csv') 是否会将整个数据加载到内存中？

标签： csv pyspark pyspark-sql

【解决方案1】：

如果 header 选项设置为 true，那么您可以使用：

df.first()

这样会返回标题行。

【讨论】：