【发布时间】:2018-06-17 19:46:37
【问题描述】:
include_cols_path = sys.argv[5]
with open(include_cols_path) as f:
include_cols = f.read().splitlines()
include_cols 是一个字符串列表
df1 = sqlContext.read.csv(input_path + '/' + lot_number +'.csv', header=True).toPandas()
df1 是一个大文件的数据框。我只想保留名称包含 include_cols 中任何字符串的列。
【问题讨论】:
标签: python pandas pyspark spark-dataframe