【发布时间】:2021-04-30 08:30:22
【问题描述】:
我有一个工作脚本,当它与脚本位于同一目录时,它可以找到数据文件。这适用于我的本地计算机和 Google Colab。
当我在 GCP 上尝试时,虽然它找不到文件。我尝试了 3 种方法:
PySpark 笔记本:
- 上传包含 wget 命令的 .ipynb 文件。这会毫无错误地下载文件,但我不确定它将它保存到哪里,并且脚本也找不到该文件(我假设因为我告诉它该文件位于同一目录中,并且可能在 GCP 上使用 wget 将其保存在其他地方默认情况下。)
带存储桶的 PySpark:
- 我做了与上面的 PySpark 笔记本相同的操作,但首先我将数据集上传到存储桶,然后在控制台上单击存储桶内的文件名时使用文件详细信息中提供的两个链接(均无效)。我想避免这种情况,因为 wget 比在我的慢速 wifi 上下载然后通过控制台重新上传到存储桶要快得多。
GCP SSH:
- 创建集群
- 通过 SSH 访问虚拟机。
- 使用 cog 图标上传 .py 文件
- wget 数据集并将两者移动到同一个文件夹中
- 使用
python gcp.py运行脚本
只是给我一个错误提示找不到文件。
谢谢。
【问题讨论】:
标签: google-cloud-platform pyspark