【发布时间】:2021-08-15 13:00:35
【问题描述】:
我正在尝试使用 spark 的 read csv 方法读取多个 s3 目录(每个目录中都有多个文件),但是由于 s3 路径包含一些非法字符,所以我收到错误。我已经检查了相关问题,但没有看到 java 的解决方案。无法为 java 实现相同的解决方案。
DataSet<Row> DocsTemp = null;
String scanResultFolder = "\"" + "s3a://somebucket/Dir1/" + "\",\"" + "s3a://somebucket/Dir2/" + "\"";
DocsTemp = spark.read().csv(scanResultFolder);
但在运行时,它会将整个字符串(scanResultFolder)视为单个路径并给出错误。
请建议我实现此功能的正确方法。
【问题讨论】:
标签: java apache-spark hadoop apache-spark-sql