【问题标题】:Spark Reading files from remote serverSpark 从远程服务器读取文件
【发布时间】:2023-03-05 12:13:01
【问题描述】:

我有 1 个节点 spark 集群并使用 WholeTextFile api 或 Textfile API 来读取和解析文件。

我可以知道 spark 允许从远程服务器读取文件吗???或者文件物理上需要存在于 Spark 节点上。?

【问题讨论】:

  • 你会想研究 Spark Streaming,但是是的,远程文件读取是可能的。
  • 在使用 binaryFiles API 或 WholeTextFile 和 JavaStreamingContext 时,您能给我举个例子吗??

标签: apache-spark


【解决方案1】:

您可以通过 FTP 读取远程文件

import org.apache.spark.SparkFiles
val filePath = "ftp://user:pwd/myhost/map/myinput.nt"
sc.addFile(filePath)
var fileName = SparkFiles.get(filePath.split("/").last)
var file = sc.textFile(fileName)

【讨论】:

  • FTP 表示我正在将文件下载到火花机?如果是这样,我需要在我的工作完成后从火花机中删除它们吗?我的理解正确吗??
猜你喜欢
  • 1970-01-01
  • 2019-07-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-02-23
  • 2012-06-30
  • 1970-01-01
  • 2018-12-12
相关资源
最近更新 更多