【发布时间】:2021-11-18 07:38:39
【问题描述】:
我在分组数据和添加索引时遇到问题。
一个新的列索引将从 1 开始添加到 n(例如:5)并再次从 1 迭代。 该值可以是任何值,因此基本上在每 n 条记录之后,索引应该以 1 重新开始。
原始数据框
| city | id |
|---|---|
| NYC | 101 |
| Jersey City | 102 |
| Hoboken | 103 |
| Buffalo | 104 |
| Philly | 105 |
| Edison | 106 |
输出数据框应该是这样的
| city | id | index |
|---|---|---|
| NYC | 101 | 1 |
| Jersey City | 102 | 2 |
| Hoboken | 103 | 3 |
| Buffalo | 104 | 4 |
| Philly | 105 | 5 |
| Edison | 106 | 1 |
| trenton | 107 | 2 |
【问题讨论】:
-
您是否要使用特殊的键/值/列来创建这些组,或者只是将它们批量为等大小的组?
-
@NirHedvat 列“id”是参考列,按升序排列,将行分组为 n(例如:5)
标签: scala apache-spark