【发布时间】:2021-07-10 03:25:26
【问题描述】:
我初始化了一个 pyspark sc。
task1 = (text.filter(lambda x: len(x)>0 )) # to filter empty lines
task1.collect()
我的目标是在此文本 sn-p 中过滤掉以“URL”开头的行:
['网址:http://www.nytimes.com/2016/06/30/sports/baseball/washington-nationals-max-scherzer-baffles-mets-completing-a-sweep.html', '华盛顿——尽管大都会队在进攻端陷入困境,但上赛季前半段出色的投球让他们保持了稳定。
如何在 pyspark 语法中轻松做到这一点?
【问题讨论】:
-
您能否提供您的 df 架构、示例输入、预期输出?