【发布时间】:2018-01-29 00:08:13
【问题描述】:
这是我的第一个问题。我在 Pyspark 中编码。我有和RDD:
['a,b,c,d,e,f']
如何找到元素'e'的索引?
我试过 zipWithIndex 但它没有给我任何索引。
我看到了一个类似的问题,但提到的解决方案没有返回索引
rdd.zipWithIndex().filter(lambda key,index : key == 'e') \
.map(lambda key,index : index).collect()
我收到一个错误。
请告诉我如何找到索引。
根据提供的解决方案:
我还是有问题。我的 rdd 是这种格式:
['a,b,c,d,e,f']
所以当我尝试时:
rdd.zipWithIndex().lookup('e')
我得到 [ ]
我应该怎么做
谢谢
【问题讨论】:
-
您需要将 rdd 的字符串拆分为分隔行,然后只应用 zipWithIndex()。那应该可以解决您的问题:)
标签: python apache-spark indexing pyspark rdd