【发布时间】:2016-05-09 09:53:48
【问题描述】:
我想在 Spark 中创建一个 RDD,其中包含来自 txt 文件的两列。
以下是我的代码:
dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0,
names=['first','second','third'])
set = sc.parallelize(range(len(dataset)), 10)
first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))
我该怎么做?
【问题讨论】:
标签: python apache-spark dataset pyspark rdd