【发布时间】:2022-01-19 15:30:58
【问题描述】:
我需要使用图像识别解决方案标记给定图像,然后根据另一个参数浏览结果。
例如,我可能会传递某个城市的市政厅的照片,算法会返回标识可能的市政厅的标签,例如Bologna City Hall、Modena City Hall、ecc...,然后,基于另一个参数,位置,它会给我正确的标签,比如如果参数是Modena,则选择Modena City Hall作为正确的解决方案。
在性能非常重要的情况下,您将如何构建它?
有一个用所有照片训练的巨大模型,然后根据结果略读吗?
每个城市都有不同的模型并根据参数选择正确的模型?
我也和我的教授讨论过这个问题,他告诉我要创建一个图像识别模型,该模型也将参数作为输入,以便它自动只考虑该城市的照片,但我还没有找到任何方法来做到这一点。
我的第一个解决方案是使用 Firebase AutoML API 训练模型,但如果无法做到这一点,我可以使用 Python 或 F# 从头开始自定义解决方案。
【问题讨论】:
-
如果您知道位置,请将其(作为某种编码,查看人们为 NLP/文本处理网络所做的工作,或使用 GPS 坐标的“位置编码”)输入到图像之外的网络中.网络的图表将变得不那么琐碎,因为网络不仅拍照。
-
我投票结束这个问题,因为它与 minimal reproducible example 中定义的编程无关,而是关于 ML 理论和/或方法 - 请参阅 stackoverflow.com/tags/machine-learning/info 中的介绍和注意事项跨度>
标签: machine-learning computer-vision image-recognition google-cloud-automl