【问题标题】:Add a new Column to my DataSet in spark Java API在 spark Java API 中向我的数据集添加一个新列
【发布时间】:2018-05-05 07:50:29
【问题描述】:

我是 Spark 的新手。 我的数据集包含两列。我想添加第三个,即两列的总和。

我的数据集是:

+---------+-------------------+
|C1       |       C2          |
+---------+-------------------+
|   44    |                 10|
|   55    |                 10|
+---------+-------------------+

我想获得这样的数据集:

+---------+-------------------+---------+
|C1       |       C2          |   C3    |
+---------+-------------------+---------+
|   44    |                 10|   54    |
|   55    |                 10|   65    |
+---------+-------------------+---------+

我们将不胜感激。

【问题讨论】:

    标签: apache-spark dataframe


    【解决方案1】:

    正确的解决办法是:

    df.withColumn("C3", df.col1("C1").plus(df.col("C2")));
    

    df.selectExpr("*", "C1 + C2");
    

    有关更多算术运算符,请查看Column 文档中的Java-specific expression operators

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-19
      • 2017-09-05
      • 1970-01-01
      • 2020-04-10
      • 1970-01-01
      • 2021-12-31
      相关资源
      最近更新 更多