【发布时间】:2018-02-18 11:18:12
【问题描述】:
我有这个代码:
files = sc.wholeTextFiles ("file:///data/*/*/")
所以,当我运行上面的命令时,我得到了这个:
[('file:/data/file.txt', 'Message')]
如何在 pyspark 中从这个 RDD 中获取“消息”部分而不是文件名?
我有这个代码:
val message = files.map(x = > x._2)
但不起作用。
【问题讨论】:
-
您尝试的代码看起来像 scala,但您询问的是 python。您的代码的直接翻译将是
message = files.map(lambda x, x[1])但这似乎是一个 XY 问题。你想做什么? -
没错,这看起来像 scala,但试图获得第二个元组。我不需要文件名,只需要消息。我将如何在 pyspark 中编写 scala 代码?
-
我编辑了我的原始评论以添加 python 代码。
-
我得到一个“SyntaxError: invalid syntax”,它指向第一个 [ 在该行。你能帮忙吗?
-
message = files.map(lambda x: x[1])。这行得通!感谢您的帮助!
标签: pyspark