【发布时间】:2017-12-21 08:36:45
【问题描述】:
我有一个数据框,我需要获取特定行的行号/索引。我想添加一个新行,使其包含字母以及行号/索引,例如。 "A - 1","B - 2"
#sample data
a= sqlContext.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "distances"])
有输出
+------+---------+
|Letter|distances|
+------+---------+
| A| 20|
| B| 30|
| D| 80|
+------+---------+
我希望新的输出是这样的,
+------+---------------+
|Letter|distances|index|
+------+---------------+
| A| 20|A - 1|
| B| 30|B - 2|
| D| 80|D - 3|
+------+---------------+
这是我一直在研究的功能
def cate(letter):
return letter + " - " + #index
a.withColumn("index", cate(a["Letter"])).show()
【问题讨论】:
-
也许this 可以帮忙? (创建 ID,然后将行 ID 作为参数传递给您的函数
cate)
标签: dataframe pyspark user-defined-functions row-number