【发布时间】:2020-10-20 10:35:23
【问题描述】:
我有一个问题。假设我在存储数据的服务器上运行 python 脚本。有什么更快的方法可以让我的数据在以下之间产生火花数据框:
- 进行包含大量条件的复杂查询,但它会返回我需要的确切数据帧或
- 进行一个简单的查询并使用 .filter / .select 创建我需要的数据框
您还可以假设我需要的数据框足够小以适合我的 RAM。
谢谢
【问题讨论】:
-
我总是会加载尽可能少的数据,尤其是在我使用 RDD API 的情况下。如果您使用的是数据帧,那么除非要管理内存,否则可能没关系。除此之外,这是一个测试数据源的查询执行和索引与 spark 执行该过滤器之间的性能差异的问题。
标签: python sql apache-spark pyspark