【发布时间】:2019-08-28 22:37:48
【问题描述】:
我正在尝试获取每个名为 Foo 的数组列的最后 n 个元素,并从中创建一个单独的列,称为 last_n_items_of_Foo。 Foo 列数组的长度可变
我看过这篇文章here 但它有一个不能用来访问最后一个元素的方法。
import pandas as pd
from pyspark.sql.functions import udf, size
from pyspark.sql.types import StringType
from pyspark.sql.functions import col
df = pd.DataFrame([[[1,1,2,3],1,0],[[1,1,2,7,8,9],0,0],[[1,1,2,3,4,5,8],1,1]],columns = ['Foo','Bar','Baz'])
spark_df = spark.createDataFrame(df)
这是输出的样子
如果 n=2
Foo Bar Baz last_2_items_of_Foo
0 [1, 1, 2, 3] 1 0 [2, 3]
1 [1, 1, 2, 7, 8, 9] 0 0 [8, 9]
2 [1, 1, 2, 3, 4, 5, 8] 1 1 [5, 8]
【问题讨论】:
标签: pyspark pyspark-sql