【问题标题】:sparklyr - Connect remote hadoop clustersparklyr - 连接远程 hadoop 集群
【发布时间】:2017-10-19 19:40:22
【问题描述】:

可以将 sparklyr 与远程 hadoop 集群连接,还是只能在本地使用? 如果有可能,怎么做? :)

在我看来,通过 spark 从 R 到 hadoop 的连接非常重要!

【问题讨论】:

    标签: r apache-spark sparklyr


    【解决方案1】:

    您是指 Hadoop 还是 Spark 集群?如果是Spark,可以尝试通过Livy连接,详情请看这里: https://github.com/rstudio/sparklyr#connecting-through-livy

    注意:通过 Livy 连接到 Spark 集群正在 sparklyr 中进行实验开发

    【讨论】:

    • 我的意思是通过 Spark 连接到 Hadoop。这可能吗?
    • 我不确定你安装的是什么类型的 Spark - 如果它在 yarn 上,那么 Spark 可以从 HDFS 读取数据。所以答案是:是的。但是,恐怕您需要提供更多信息才能很好地提示您需要什么。
    • 好的,谢谢。我的数据存储在 Cloudera Hadoop 集群中。使用 JDBC-Connection 通过 hive 访问数据可以很好地使用 are。这与闪闪发光也可能吗?如果是,如何? :)
    【解决方案2】:

    您可以使用 livy,它是 spark 集群的 Rest API 服务。

    在 Azure 上设置 HDinsight 集群后,使用 curl 检查 livy 服务

    #curl test
    curl -k --user "admin:mypassword1!" -v -X GET 
    
    
    #r-studio code
    sc <- spark_connect(master = "https://<yourclustername>.azurehdinsight.net/livy/",
                         method = "livy", config = livy_config(
                           username = "admin",
                           password = rstudioapi::askForPassword("Livy password:")))
    

    一些有用的网址 https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-livy-rest-interface

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-04-15
      • 2017-02-09
      • 2015-09-02
      • 2018-07-01
      • 2017-07-02
      • 2017-02-07
      • 2023-03-31
      • 1970-01-01
      相关资源
      最近更新 更多