【发布时间】:2017-06-21 07:42:37
【问题描述】:
我有一个包含 200 万条记录的数据框。我想读取每条记录以进行分析。
但是当我使用dataframe.collect() 方法时,它将从本地运行驱动程序的所有节点获取数据,这会影响实现并行性。有什么解决办法吗?
我的配置是:
Cloudera:CDH 5.9.1
Cluster Nodes:5 ->each 8GB RAM
Spark:1.6
Scala:10.5
【问题讨论】:
-
你想对每条记录做什么?
-
我需要过滤每个唯一 ID 的数据,并对每个 ID 的 X 天数据进行分析。
-
你需要更清楚。有很多可用的功能,您可以根据需要使用UDF和UDAF
标签: scala hadoop apache-spark hive apache-spark-sql