【发布时间】:2016-07-19 18:00:22
【问题描述】:
从R,我们有函数factors()。我想通过 Spark R 以并行方式使用这个函数。
我的 Spark 版本是 1.6.2,我在 documentation 中找不到等效版本。我以为我可以用地图做到这一点,但我不确定我是否理解this answer,应该有更简单的方法。
简单地说:Spark R 中factors() 的等价物是什么?
【问题讨论】:
-
this answer 有用吗?
-
或者使用Spark的one-hot encoder创建虚拟变量
-
我从第二个答案中了解到它指向类似地图的解决方案,但我不清楚如何在 SparkR 中实现这一点。我不确定如何让 map 函数在 SparkR 中返回 3 列。
-
OneHotEncoder 似乎是要走的路 - 从文档来看,它仅在 Scala、Java 和 Python 中可用。所以我的问题的一个解决方案是在 Scala 中准备我的数据,然后在 R 中加载它。
-
我会说我建议切换到 rstudio 的 sparklyr 而不是 sparks sparkR。我发现它更直观、更可靠。从那里,似乎有一种方法可以注入“原始 scala”。或者只是通过 sparklyr 连接手动对变量进行一键编码
标签: r apache-spark sparkr