如何使用 tensorflow 和卷积神经网络检测和定位对象？答案

【问题标题】：How can i detect and localize object using tensorflow and convolutional neural network?如何使用 tensorflow 和卷积神经网络检测和定位对象？
【发布时间】：2020-10-03 13:17:02
【问题描述】：

我的问题陈述如下：

" 使用 Tensorflow 和卷积神经网络进行目标检测和定位 "

我做了什么？

我已经完成了使用 tflearn 库从图像中检测猫的工作。我使用 25000 张猫的图像成功地训练了一个模型，并且它的工作正常且准确度很高。

当前结果：

我想做什么？

如果我的图像由同一图像中的两个或两个以上对象组成，例如猫和狗在一起，那么我的结果应该是“猫和狗”，除此之外我必须找到确切位置 图像上的这两个对象（bounding box）

我遇到了许多高级库，例如 darknet 、SSD，但无法理解其背后的概念。

请指导我解决问题的方法。

注意：我使用的是监督学习技术。

预期结果：

【问题讨论】：

标签： tensorflow computer-vision deep-learning tflearn

【解决方案1】：

你有几种方法可以解决它。

最直接的方法是使用一些边界框建议算法（如选择性搜索）获得一些建议的边界框，并在每个建议上运行您已经训练的分类网络。这种方式就是R-CNN采用的方式。

对于基于上述方法的更高级算法，我建议您阅读有关 Fast-R-CNN 和 Faster R-CNN 的内容。

查看Object detection with R-CNN? 了解一些基本解释。

Darknet 和 SSD 基于不同的方法，如果您想了解它们，可以阅读它们

http://www.cs.unc.edu/~wliu/papers/ssd.pdf https://pjreddie.com/media/files/papers/yolo.pdf

【讨论】：

【解决方案2】：

图像定位是一个复杂的问题，许多不同的实现以不同的效率实现相同的结果。

有两种主要的实现类型

-使用回归定位对象

-单发检测器

阅读此https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/object_localization_and_detection.html 以获得更好的想法。

干杯

【讨论】：

【解决方案3】：

我使用 PyTorch 和 ResNet34 在印度货币上做了一个类似的项目（检测 + 本地化）。以下是我的 kaggle notebook 的链接，希望对您有所帮助。我从互联网上手动收集了图像并在它们周围制作了边界框，并使用“LabelImg”注释工具保存了它们的注释文件（Pascal VOC）。

https://www.kaggle.com/shweta2407/objectdetection-on-custom-dataset-resnet34

【讨论】：