【问题标题】:I want to create an RDD in Spark with two columns from a txt file. How do I do it?我想在 Spark 中创建一个 RDD,其中包含 txt 文件中的两列。我该怎么做?
【发布时间】:2016-05-09 09:53:48
【问题描述】:

我想在 Spark 中创建一个 RDD,其中包含来自 txt 文件的两列。

以下是我的代码:

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0,
                   names=['first','second','third'])

set = sc.parallelize(range(len(dataset)), 10)

first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))

我该怎么做?

【问题讨论】:

    标签: python apache-spark dataset pyspark rdd


    【解决方案1】:

    由于您使用 pandas 来读取 txt 文件,因此您可以先创建 Spark DF,然后您就可以访问列,例如

    dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0, names=['first','second','third'])
    
    set = sqlContext.createDataFrame(dataset)
    
    first_second = set.map(lambda z: (z.first, z.second))
    
    # another possibility
    first_second = set.map(lambda z: (z["first"], z["second"]))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-02-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-01-04
      相关资源
      最近更新 更多