【发布时间】:2019-12-16 20:55:35
【问题描述】:
我有一个包含 6k 分区的 hive parquet 表(s3 顶部的外部表)。在数据探索中,我们想要查看示例数据,假设 1/2/10 记录而不执行任何转换或操作。
有没有办法只限制一个分区并限制/显示 n 条记录,而不是通过 6k 分区(如果集群很小,只打印 10 行将花费大量时间)。我想过mapPartitionsWithIndex,但它仍然会遍历所有分区
def mpwi(index: Int, iter: Iterator[Row]): Iterator = {
if (index == 1) iter
else Iterator()
}
【问题讨论】:
-
你可以使用RDD对象的sample()方法。
-
让我试试让你知道。
标签: apache-spark