【发布时间】:2017-07-18 16:02:06
【问题描述】:
我想在我的 Spark 程序中遍历数据框的列并计算最小值和最大值。 我是 Spark 和 scala 的新手,一旦在数据帧中获取列,就无法迭代列。
我尝试运行以下代码,但需要将列号传递给它,问题是如何从数据框中获取它并动态传递它并将结果存储在集合中。
val parquetRDD = spark.read.parquet("filename.parquet")
parquetRDD.collect.foreach ({ i => parquetRDD_subset.agg(max(parquetRDD(parquetRDD.columns(2))), min(parquetRDD(parquetRDD.columns(2)))).show()})
感谢您对此的任何帮助。
【问题讨论】:
标签: scala apache-spark apache-spark-sql spark-streaming spark-dataframe