【发布时间】:2020-11-27 10:30:08
【问题描述】:
如何知道数据集最长记录(行)的大小(以字节为单位)。
我有一个相当大的数据帧,记录(行)长度可变,我想知道有效负载最大的行的长度。
它有数百万\十亿行,所以我想知道一种有效且不会影响性能的方法。
我有 DataFrameWriter 作为输入。
【问题讨论】:
-
上面的一个更正:我有 DataFrameWriter
或 Dataset
作为输入。
标签: scala apache-spark bigdata