【发布时间】:2026-01-13 13:25:01
【问题描述】:
我有键/值对的 RDD,对于每个键,我需要调用一些接受 RDD 的函数。所以我尝试了 RDD.Map 并在 map 内部使用 sc.parallelize(value) 方法创建了 RDD 并将这个 rdd 发送到我的函数,但是由于 Spark 不支持在 RDD 中创建 RDD,所以这是行不通的。
你能建议我解决这种情况吗?
我正在寻找下面线程中建议的解决方案,但我遇到的问题是我的钥匙没有固定,我可以拥有任意数量的钥匙。
How to create RDD from within Task?
谢谢
【问题讨论】:
-
没有通用的解决方案。不能从地图调用 RDD。如果您提供一些代码与您的逻辑,可能会建议一个合适的更改。
-
这听起来像XY problem。为什么你在自己的函数逻辑中依赖
RDD? -
您真正想用 Spark 实现什么?您能否描述一下您的用例(而不是您如何尝试使用 Spark)?
标签: apache-spark