【发布时间】:2019-02-13 21:23:46
【问题描述】:
- 按 Spark SQL 排序导致窄依赖。
- Spark SQL 的 Dataset API 和 order by 的排序导致 Wide 依赖关系。
【问题讨论】:
标签: apache-spark apache-spark-sql
【问题讨论】:
标签: apache-spark apache-spark-sql
这里有两个不同的东西:
通常 Spark 使用 sort 作为 orderBy - What is the difference between sort and orderBy functions in Spark 的别名
Hive 有 SORT BY 子句,which sorts data locally per partition - 这样的操作在 Spark 中称为 sortWithinPartitions。
【讨论】: