我想在 Spark 中创建一个 RDD，其中包含 txt 文件中的两列。我该怎么做？

【问题标题】：I want to create an RDD in Spark with two columns from a txt file. How do I do it?我想在 Spark 中创建一个 RDD，其中包含 txt 文件中的两列。我该怎么做？
【发布时间】：2016-05-09 09:53:48
【问题描述】：

我想在 Spark 中创建一个 RDD，其中包含来自 txt 文件的两列。

以下是我的代码：

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0,
                   names=['first','second','third'])

set = sc.parallelize(range(len(dataset)), 10)

first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))

我该怎么做？

【问题讨论】：

标签： python apache-spark dataset pyspark rdd

【解决方案1】：

由于您使用 pandas 来读取 txt 文件，因此您可以先创建 Spark DF，然后您就可以访问列，例如

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0, names=['first','second','third'])

set = sqlContext.createDataFrame(dataset)

first_second = set.map(lambda z: (z.first, z.second))

# another possibility
first_second = set.map(lambda z: (z["first"], z["second"]))

【讨论】：