【发布时间】:2019-08-13 00:31:59
【问题描述】:
我有一个这样的 Spark 数据框
+-----------------+---------------+----------+-----------+
| column1 | column2 | column3 | column4 |
+-----------------+---------------+----------+-----------+
| a | bbbbb | cc | >dddddddd |
| >aaaaaaaaaaaaaa | bb | c | dddd |
| aa | >bbbbbbbbbbbb | >ccccccc | ddddd |
| aaaaa | bbbb | ccc | d |
+-----------------+---------------+----------+-----------+
我想找到每列中最长元素的长度以获得类似的东西
+---------+-----------+
| column | maxLength |
+---------+-----------+
| column1 | 14 |
| column2 | 12 |
| column3 | 7 |
| column4 | 8 |
+---------+-----------+
我知道如何逐列执行,但不知道如何告诉 Spark - Do it for all columns。
我正在使用 Scala Spark。
【问题讨论】:
标签: apache-spark apache-spark-sql