【发布时间】:2015-07-23 19:15:30
【问题描述】:
我想将图像的像素分类为“是街道”或“不是街道”。我有一些来自KITTI dataset 的训练数据,我看到Caffe 有一个IMAGE_DATA 层类型。
标签以与输入图像大小相同的图像形式存在。
除了 Caffe,我解决这个问题的第一个想法是在应该分类的像素周围提供图像补丁(例如,顶部/左侧/右侧/底部 20 个像素,导致每个像素有 41×41=1681 个特征想分类。
但是,如果我可以告诉 caffe 如何使用标签,而无需手动创建这些图像补丁(并且图层类型 IMAGE_DATA 似乎表明这是可能的)我会更喜欢。
Caffe 可以直接对图像的像素进行分类吗?这样的 prototxt 网络定义会是什么样子?如何向 Caffe 提供有关标签的信息?
我猜输入层应该是这样的
layers {
name: "data"
type: IMAGE_DATA
top: "data"
top: "label"
image_data_param {
source: "path/to/file_list.txt"
mean_file: "path/to/imagenet_mean.binaryproto"
batch_size: 4
crop_size: 41
mirror: false
new_height: 256
new_width: 256
}
}
但是,我不确定crop_size 的确切含义。真的是居中吗? caffe 是如何处理角点像素的? new_height 和 new_width 有什么用处?
【问题讨论】:
-
从某种意义上说,您的问题非常大,涉及许多主题。你能把它“分解”成更小的问题吗?每个问题一个主题?您可以(并且应该?)链接问题以提供上下文。
标签: computer-vision conv-neural-network caffe image-segmentation semantic-segmentation