限制火花数据帧的数据答案

【问题标题】：Limit the data for spark dataframe限制火花数据帧的数据
【发布时间】：2019-10-18 03:05:17
【问题描述】：

我正在使用 spark 数据框从 NOSQL 数据库中读取数据。由于在 databricks 中加载最大 40MB 数据是有限制的，我正在寻找一种限制数据的解决方案。我曾尝试使用 limit() 或 take() 选项，但两者都给我一个错误，因为它们先读取整个数据然后再限制。

在读取自身时会引发错误，我们是否可以在读取整个数据集之前限制数据？我们过滤了数据，只取了两列，但这些数据仍然很大。

ReadData = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("uri",connectionstring).option("pipeline",pipeline).load().limit(2000)

【问题讨论】：

【解决方案1】：

我不确定读取一小部分数据的意图。一种选择是尝试应用过滤器，该过滤器可能会下推到数据库中，并可能导致记录数减少。

【讨论】：