collect_list() 是否保持行的相对顺序？答案

【问题标题】：Does collect_list() maintain relative ordering of rows?collect_list() 是否保持行的相对顺序？
【发布时间】：2017-06-09 01:41:59
【问题描述】：

假设我有以下 DataFrame df：

+---+-----------+------------+
| id|featureName|featureValue|
+---+-----------+------------+
|id1|          a|           3|
|id1|          b|           4|
|id2|          a|           2|
|id2|          c|           5|
|id3|          d|           9|
+---+-----------+------------+

想象一下我在跑步：

df.groupBy("id")
  .agg(collect_list($"featureIndex").as("idx"),
       collect_list($"featureValue").as("val"))

我是否保证“idx”和“val”将被聚合并保持它们的相对顺序？即

GOOD                   GOOD                   BAD
+---+------+------+    +---+------+------+    +---+------+------+
| id|   idx|   val|    | id|   idx|   val|    | id|   idx|   val|
+---+------+------+    +---+------+------+    +---+------+------+
|id3|   [d]|   [9]|    |id3|   [d]|   [9]|    |id3|   [d]|   [9]|
|id1|[a, b]|[3, 4]|    |id1|[b, a]|[4, 3]|    |id1|[a, b]|[4, 3]|
|id2|[a, c]|[2, 5]|    |id2|[c, a]|[5, 2]|    |id2|[a, c]|[5, 2]|
+---+------+------+    +---+------+------+    +---+------+------+

注意：例如这很糟糕，因为对于 id1 [a, b] 应该与 [3, 4] 相关联（而不是 [4, 3]）。 id2 也一样

【问题讨论】：

标签： scala apache-spark apache-spark-sql

【解决方案1】：

我认为您可以依赖 “它们的相对顺序”，因为 Spark 按顺序逐行遍历（并且通常如果没有明确说明，则不会重新排序行需要）。

如果您关心顺序，请在执行groupBy 之前使用struct 函数合并这两列。

struct(colName: String, colNames: String*): Column 创建一个包含多个输入列的新结构列。

您还可以使用monotonically_increasing_id 函数对记录进行编号，并使用它与其他列配对（可能使用struct）：

monotonically_increasing_id(): Column 生成单调递增的 64 位整数的列表达式。

生成的ID保证单调递增且唯一，但不连续。

【讨论】：

因此 Spark DataFrame “水平”而不是“垂直”分布数据的处理。即一个执行者总是会收到整行，而不仅仅是几列？
是的。行始终完整地位于一个执行器/节点上。