【发布时间】:2017-03-06 10:03:36
【问题描述】:
如https://github.com/databricks/spark-csv 所述, 我也在读csv
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('cars.csv')
是否有任何选项可以仅读取标题或仅读取前几行。 基本上我只想检查数据框中是否存在特定列?
【问题讨论】:
-
当我们从 csv 加载数据帧时,即步骤: df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema=' true').load('cars.csv') 是否会将整个数据加载到内存中?
标签: csv pyspark pyspark-sql