【发布时间】:2018-02-15 05:24:15
【问题描述】:
我假设 Google 存储连接器允许直接查询 GS,就好像它是来自 Dataproc 中 Spark 的 HDFS,但看起来以下内容不起作用(来自 Spark Shell):
scala> import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.FileSystem
scala> import org.apache.hadoop.fs.Path
import org.apache.hadoop.fs.Path
scala> FileSystem.get(sc.hadoopConfiguration).exists(new Path("gs://samplebucket/file"))
java.lang.IllegalArgumentException: Wrong FS: gs://samplebucket/file, expected: hdfs://dataprocmaster-m
有没有办法只使用 Hadoop API 来访问 Google Storage 文件?
【问题讨论】:
标签: hadoop apache-spark google-cloud-dataproc