【发布时间】:2019-03-24 18:20:39
【问题描述】:
我正在使用 Apache Spark,并且有一个如下所示的数据框:
scala> df.printSchema
root
|-- id: string (nullable = true)
|-- epoch: long (nullable = true)
scala> df.show(10)
+--------------------+-------------+
| id | epoch|
+--------------------+-------------+
|6825a28d-abe5-4b9...|1533926790847|
|6825a28d-abe5-4b9...|1533926790847|
|6825a28d-abe5-4b9...|1533180241049|
|6825a28d-abe5-4b9...|1533926790847|
|6825a28d-abe5-4b9...|1532977853736|
|6825a28d-abe5-4b9...|1532531733106|
|1eb5f3a4-a68c-4af...|1535383198000|
|1eb5f3a4-a68c-4af...|1535129922000|
|1eb5f3a4-a68c-4af...|1534876240000|
|1eb5f3a4-a68c-4af...|1533840537000|
+--------------------+-------------+
only showing top 10 rows
我想按id 字段进行分组,以获得id 的所有纪元时间戳。然后我想通过升序时间戳对纪元进行排序,然后取第一个和最后一个纪元。
我使用了以下查询,但 first 和 last 纪元值似乎是按照它们在原始数据框中出现的顺序进行的。我希望按升序排列第一个和最后一个。
scala> val df2 = df2.groupBy("id").
agg(first("epoch").as("first"), last("epoch").as("last"))
scala> df2.show()
+--------------------+-------------+-------------+
| id| first| last|
+--------------------+-------------+-------------+
|4f433f46-37e8-412...|1535342400000|1531281600000|
|d0cba2f9-cc04-42c...|1535537741000|1530448494000|
|6825a28d-abe5-4b9...|1533926790847|1532531733106|
|e963f265-809c-425...|1534996800000|1534996800000|
|1eb5f3a4-a68c-4af...|1535383198000|1530985221000|
|2e65a033-85ed-4e4...|1535660873000|1530494913413|
|90b94bb0-740c-42c...|1533960000000|1531108800000|
+--------------------+-------------+-------------+
如何从 epoch 升序排序的 epoch 列表中检索第一个和最后一个?
【问题讨论】:
-
使用
min和max? -
我稍后将使用字符串值,而不仅仅是数字时期。 min 和 max 是否也适用于字符串?
-
我想是的。否则你需要窗口函数。
标签: apache-spark apache-spark-sql