【发布时间】:2023-03-17 01:04:01
【问题描述】:
我了解partitionBy 函数对我的数据进行分区。如果我使用rdd.partitionBy(100),它将按密钥将我的数据划分为 100 个部分。即与相似键关联的数据将被组合在一起
- 我的理解正确吗?
- 是否建议分区数等于 可用内核?这是否会提高处理效率?
- 如果我的数据不是键值格式怎么办。这个功能还能用吗?
- 可以说我的数据是serial_number_of_student,student_name。在这个 案例我可以通过 student_name 而不是 序列号?
【问题讨论】:
标签: python apache-spark pyspark partitioning rdd