【发布时间】:2019-08-18 19:47:06
【问题描述】:
我有一个 R 数据帧,我想将它转换为远程集群上的 Spark 数据帧。我决定将我的数据帧写入一个中间 csv 文件,然后使用sparklyr::spark_read_csv() 读取该文件。我这样做是因为数据帧太大而无法使用sparklyr::sdf_copy_to() 直接发送(我认为这是由于 Livy 的限制)。
我想以编程方式将数据帧中使用的 R 列类型转移到新的 spark 数据帧,方法是编写一个函数,该函数返回一个命名向量,我可以将其与 spark_read_csv() 中的 columns 参数一起使用。
【问题讨论】:
标签: r apache-spark dplyr sparklyr livy