sparklyr - 连接远程 hadoop 集群答案

【问题标题】：sparklyr - Connect remote hadoop clustersparklyr - 连接远程 hadoop 集群
【发布时间】：2017-10-19 19:40:22
【问题描述】：

可以将 sparklyr 与远程 hadoop 集群连接，还是只能在本地使用？如果有可能，怎么做？ :)

在我看来，通过 spark 从 R 到 hadoop 的连接非常重要！

【问题讨论】：

标签： r apache-spark sparklyr

【解决方案1】：

您是指 Hadoop 还是 Spark 集群？如果是Spark，可以尝试通过Livy连接，详情请看这里： https://github.com/rstudio/sparklyr#connecting-through-livy

注意：通过 Livy 连接到 Spark 集群正在 sparklyr 中进行实验开发

【讨论】：

我的意思是通过 Spark 连接到 Hadoop。这可能吗？
我不确定你安装的是什么类型的 Spark - 如果它在 yarn 上，那么 Spark 可以从 HDFS 读取数据。所以答案是：是的。但是，恐怕您需要提供更多信息才能很好地提示您需要什么。
好的，谢谢。我的数据存储在 Cloudera Hadoop 集群中。使用 JDBC-Connection 通过 hive 访问数据可以很好地使用 are。这与闪闪发光也可能吗？如果是，如何？ :)
请看这里：stackoverflow.com/questions/38102921/…

【解决方案2】：

您可以使用 livy，它是 spark 集群的 Rest API 服务。

在 Azure 上设置 HDinsight 集群后，使用 curl 检查 livy 服务

#curl test
curl -k --user "admin:mypassword1!" -v -X GET 


#r-studio code
sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
                     method = "livy", config = livy_config(
                       username = "admin",
                       password = rstudioapi::askForPassword("Livy password:")))

一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface

【讨论】：