【发布时间】:2017-11-03 01:00:21
【问题描述】:
在 Pyspark 中,可以使用以下代码过滤数组:
lines.filter(lambda line: "some" in line)
但我已经从 json 文件中读取数据并对其进行标记。现在它具有以下形式:
df=[Row(text=u"i have some text", words=[u'I', u'have', u"some'", u'text'])]
如何从单词数组中过滤掉“一些”?
【问题讨论】:
标签: arrays python-2.7 apache-spark pyspark