【发布时间】:2019-10-23 03:28:11
【问题描述】:
我正在尝试在 s3 和 SageMaker 之间创建(我认为的)一个简单的图像分类管道。
图像存储在 s3 存储桶中,当前文件名中包含其类标签,例如
My-s3-bucket-dir
cat-1.jpg
dog-1.jpg
cat-2.jpg
..
我一直在尝试利用几个相关的示例 .py 脚本,但大多数似乎是下载已经采用 .rec 格式的数据集或包含我没有的特殊清单或注释文件。
我想要的只是将图像从 s3 传递到位于同一区域、IAM 帐户等的 SageMaker 图像分类算法。我想这意味着我需要一个 .lst 文件
当我尝试手动创建 .lst 时,它似乎并不喜欢它,而且手动工作也需要很长时间才能成为一种好习惯。
如何自动生成.lst 文件(或以其他方式发送图像/类进行训练)?
我读到的东西听起来像是im2rec.py 是一个解决方案,但我不知道如何解决。我现在使用的示例是
Image-classification-fulltraining-highlevel.ipynb
但它似乎将数据下载为.rec,
download('http://data.mxnet.io/data/caltech-256/caltech-256-60-train.rec')
download('http://data.mxnet.io/data/caltech-256/caltech-256-60-val.rec')
它只是跳过使用 .jpeg 文件。我找到了另一个将它们转换为 .rec 的方法,但它本质上还是 .lst 已经作为 .json 并且只是转换它。
我主要在 AWS 控制台(在我的浏览器中)中使用 Python Jupyter 笔记本,但我也尝试过使用他们的 GUI。
如何在不手动创建 .lst 文件的情况下简单地自动生成 .lst 或以其他方式将数据/类信息导入 SageMaker?
更新
看起来 im2py 无法针对 s3 运行。您必须将所有 s3 存储桶中的所有内容完全下载到笔记本的存储中...
请注意 [...] im2rec.py 正在本地运行, 因此无法从 S3 存储桶获取输入。生成列表 文件,您需要下载数据,然后使用 im2rec 工具。 - AWS SageMaker 团队
【问题讨论】:
标签: python-3.x amazon-s3 computer-vision amazon-sagemaker