【发布时间】:2017-10-19 19:40:22
【问题描述】:
可以将 sparklyr 与远程 hadoop 集群连接,还是只能在本地使用? 如果有可能,怎么做? :)
在我看来,通过 spark 从 R 到 hadoop 的连接非常重要!
【问题讨论】:
标签: r apache-spark sparklyr
可以将 sparklyr 与远程 hadoop 集群连接,还是只能在本地使用? 如果有可能,怎么做? :)
在我看来,通过 spark 从 R 到 hadoop 的连接非常重要!
【问题讨论】:
标签: r apache-spark sparklyr
您是指 Hadoop 还是 Spark 集群?如果是Spark,可以尝试通过Livy连接,详情请看这里: https://github.com/rstudio/sparklyr#connecting-through-livy
注意:通过 Livy 连接到 Spark 集群正在 sparklyr 中进行实验开发
【讨论】:
您可以使用 livy,它是 spark 集群的 Rest API 服务。
在 Azure 上设置 HDinsight 集群后,使用 curl 检查 livy 服务
#curl test
curl -k --user "admin:mypassword1!" -v -X GET
#r-studio code
sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
method = "livy", config = livy_config(
username = "admin",
password = rstudioapi::askForPassword("Livy password:")))
一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface
【讨论】: