【发布时间】:2021-09-22 20:26:31
【问题描述】:
我有一个制表符分隔的文件,它保存为 .txt,字符串变量周围有“”。该文件可以在here找到。
我正在尝试将其读入 Spark-R(版本 3.1.2),但无法成功将其导入环境。我尝试了read.df 代码的变体,如下所示:
df <- read.df(path = "FILE.txt", header="True", inferSchema="True", delimiter = "\t", encoding="ISO-8859-15")
df <- read.df(path = "FILE.txt", source = "txt", header="True", inferSchema="True", delimiter = "\t", encoding="ISO-8859-15")
我已经成功使用read.csv 导入 CSV,但我拥有的许多文件超过 10GB,在将它们导入 Spark-R 之前将它们转换为 CSV 是不切实际的。
编辑:当我运行 read.df 时,我会得到一份错误清单,从以下开始:
我能够通过read.df 和read.csv 引入之前项目中使用的csv 文件,所以我认为这不是java 问题。
【问题讨论】:
标签: r apache-spark tabs sparkr txt