【发布时间】:2022-06-13 18:05:48
【问题描述】:
如何使用 pyspark 对该数据框中的图书列表进行排序
root
|-- AUTHORID: integer
|-- NAME: string
|-- BOOK_LIST: array
| |-- BOOK_ID: integer
| |-- BOOK_NAME: string
更新
就我而言,我有一个数据框,其中包含多个级别的嵌套项
root
|-- AUTHOR_ID: integer (nullable = false)
|-- NAME: string (nullable = true)
|-- Books: array (nullable = false)
| |-- element: struct (containsNull = false)
| | |-- BOOK_ID: integer (nullable = false)
| | |-- Chapters: array (nullable = true)
| | | |-- element: struct (containsNull = true)
| | | | |-- NAME: string (nullable = true)
| | | | |-- NUMBER_PAGES: integer (nullable = true)
如何按名称对章节进行排序?
【问题讨论】:
-
对于更新的架构,我认为此时您应该
explode数组并排序,然后将其组合回来。 -
@Emma 我们可以将
array_sort用于第一级项目,对于其他我应用array_sort的项目就在.agg()之后
标签: apache-spark pyspark