【发布时间】:2020-10-30 10:41:57
【问题描述】:
当我使用 pyspark 从我的计算机读取数据(DAT 文件 - 4 Gb)时,一切都很好,但是当我使用 pyspark 从本地计算机(我公司中的其他计算机通过 LAN 连接)读取数据时,出现错误下面:
'' Py4JJavaError: 调用 o304.csv 时出错。 : java.io.IOException: No FileSystem for scheme: null ''
如果我使用 pandas.read_csv 从本地计算机读取文件,一切都很好(只有 pyspark 有问题)。在这种情况下,请帮助支持。谢谢!
我的电脑读取数据的代码(没问题):
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
path='V04R-V04R-SQLData.dat'
df = spark.read.option("delimiter", "\t").csv(path)
我在本地计算机中读取数据的代码(出现问题):
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
path='//8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat'
df = spark.read.option("delimiter", "\t").csv(path)
注意:
8LWK8X1 是本地计算机名称
【问题讨论】:
-
不清楚您所说的我的计算机和本地计算机是什么意思,但据我所知,您正在尝试远程读取文件。方案部分是两个正斜杠。您是否有可以远程打开文件的有效路径? Spark 支持 ftp,所以如果这可行,您的路径将是
ftp://8LWK8X1/Data/Subfolder1/V04R-V04R-SQLData.dat。请注意,该方案现在是 ftp: 而不是 null。 -
我尝试按照您的建议阅读我的文件,但仍然出现错误。你能分享我更多的选择吗?本地计算机是指所有计算机通过 LAN(局域网)连接在一起
标签: apache-spark pyspark