【发布时间】:2017-07-24 14:33:43
【问题描述】:
我对 Python 和 Spark 都非常陌生,我正在尝试通过分隔符删除 string 中的值。我有一个带有以下几行的 RDD。
我想删除“_”下划线之前的所有内容,仅将剩余值保留为字符串。我尝试在下面使用类似的东西但失败了。任何帮助都是极好的。谢谢你,如果我在菜鸟方面措辞不当,我深表歉意。
a.split('_')
File "<stdin>", line 1, in <module>
AttributeError: 'dict' object has no attribute 'split'
# Preferably Something Like This:
# Before
a = rdd.take(1)[1]
a
{u'bin1_11394071': 1, u'bin1_11052103': 1, u'bin1_11052101': 1}
# After
new_a.take(1)[1]
new_a
{u'11394071': 1, u'11052103': 1, u'11052101': 1}
【问题讨论】:
标签: python apache-spark pyspark