如何在 azure hdinsight ML 服务的 R 服务器中导入/读取 csv 文件答案

【问题标题】：How to import/read csv file in R server in azure hdinsight ML service如何在 azure hdinsight ML 服务的 R 服务器中导入/读取 csv 文件
【发布时间】：2019-12-21 03:35:22
【问题描述】：

概述：
Azure HDInsight
集群类型：机器学习服务（R 服务器）
版本：R 服务器 9.1 (HDI 3.6)

我正在尝试将 csv 文件从 Azure 数据存储 blob 导入 R 服务器环境。但这显然不像我想象的那么容易，或者不像本地那么容易。

我尝试的第一件事是安装sparklyr 包并设置连接。

#install.packages("devtools")
#devtools::install_github("rstudio/sparklyr")
install.packages("sparklyr")
library(sparklyr)
sc <- spark_connect(master = "yarn")

但由于 HDI 中安装了旧版本，出现错误消息。

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
  sparklyr does not currently support Spark version: 2.1.1.2.6.2.38

然后我尝试使用rxSparkConnect，但也没有用。

#Sys.setenv(SPARK_HOME_VERSION="2.1.1.2.6.2.38-1")

cc <- rxSparkConnect(interop = "sparklyr")
sc <- rxGetSparklyrConnection(cc)

orgins <- file.path("wasb://STORAGENAME@CLUSTERNAME.blob.core.windows.net","FILENAME.csv")
spark_read_csv(sc,path = origins, name = "df")

如何将 csv 文件从 azure 存储 blob 读取到 r 服务器环境中？
我对自己有点不高兴，这花了这么长时间，而且不应该这么复杂，请帮助我！提前致谢！
related post 1 related post 2

【问题讨论】：

标签： r azure apache-spark azure-hdinsight r-server

【解决方案1】：

我发现一个不完美的解决方法是在右下角的“本地”环境中上传数据，然后简单地从那里读取 csv 文件。

必须有更好的方法来做到这一点，因为它需要大量的手动工作，如果数据量很大并且浪费存储 blob，则可能不切实际。

【讨论】：