【问题标题】:How to import/read csv file in R server in azure hdinsight ML service如何在 azure hdinsight ML 服务的 R 服务器中导入/读取 csv 文件
【发布时间】:2019-12-21 03:35:22
【问题描述】:

概述:
Azure HDInsight
集群类型:机器学习服务(R 服务器)
版本:R 服务器 9.1 (HDI 3.6)

我正在尝试将 csv 文件从 Azure 数据存储 blob 导入 R 服务器环境。但这显然不像我想象的那么容易,或者不像本地那么容易。

我尝试的第一件事是安装sparklyr 包并设置连接。

#install.packages("devtools")
#devtools::install_github("rstudio/sparklyr")
install.packages("sparklyr")
library(sparklyr)
sc <- spark_connect(master = "yarn")

但由于 HDI 中安装了旧版本,出​​现错误消息。

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
  sparklyr does not currently support Spark version: 2.1.1.2.6.2.38

然后我尝试使用rxSparkConnect,但也没有用。

#Sys.setenv(SPARK_HOME_VERSION="2.1.1.2.6.2.38-1")

cc <- rxSparkConnect(interop = "sparklyr")
sc <- rxGetSparklyrConnection(cc)

orgins <- file.path("wasb://STORAGENAME@CLUSTERNAME.blob.core.windows.net","FILENAME.csv")
spark_read_csv(sc,path = origins, name = "df")

如何将 csv 文件从 azure 存储 blob 读取到 r 服务器环境中?
我对自己有点不高兴,这花了这么长时间,而且不应该这么复杂,请帮助我!提前致谢!
related post 1 related post 2

【问题讨论】:

    标签: r azure apache-spark azure-hdinsight r-server


    【解决方案1】:

    我发现一个不完美的解决方法是在右下角的“本地”环境中上传数据,然后简单地从那里读取 csv 文件。

    必须有更好的方法来做到这一点,因为它需要大量的手动工作,如果数据量很大并且浪费存储 blob,则可能不切实际。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-04-15
      • 1970-01-01
      • 1970-01-01
      • 2016-06-26
      • 2018-10-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多