Material Recognition in the Wild with the Materials in Context Database论文笔记

摘要:

在现实世界中，材料识别是一个有挑战性的任务。真实世界中的材料是有很丰富的表面纹理、几何形状、光照条件和杂波。这些因素使的这个问题难以处理。在这边论文，我们提出了一个新的、大规模的、在户外的材料的开放数据集（MINC），并且用深度学习在这些数据集中的图片中去获取材料识别和分割。

MINC比之前的材料数据集大一个数量级。MINC具有多种种类和精心采样的23个categories。使用MINC，我们训练CNN网络进行两个任务：第一个使在patches中给材料分类。第二个是在整张图片中同时进行材料识别和分割。在MINC的patch-based识别，我们发现CNN结构能够取得85.2%的平均准确率。我们转换那些训练好了的CNN分类器去fully connected conditional random filed(CRF)去预测一张图片中所有像素的材料。取得了73.1%的分类平均准确率。我们的实验证明了拥有像MINC一样的大规模的、采样良好的数据集对于材料识别和分割来说是非常关键的。

1..引言：

材料识别在我们理解世界以及与世界的相互作用中扮演这很重要的角色。为了判断表面是否适合行走、或者用什么样的方式去抓取物体，我们必须认识到构成我们周围环境的材料。自动材料识别可以在很多应用中发挥作用，包括机器人、产品搜索以及室内设计的图像编辑。但是在真实世界的图像的材质识别是很有挑战性的。很多材料的种类，比如布或者木材，在视觉上非常丰富，并且蕴含各种各样的外观。材料更进一步变化，因为光线和形状的不同。一些种类，比如说塑料和陶瓷，总是平滑和无特色，需要微妙的线索或背景来区分它们。

使用了大规模数据集（比如说ImageNet, SUN和Places）的CNN有了重大突破在物体识别和场景分类。材料识别同样可以通过大规模数据和学习来提升。至今，在材料识别的进步被中等规模大小的数据集，比如Flickr Material Database（FMD）促进。FMD包含了10个材料categories，每个category拥有100个样本的图片。那些图片是被非常小心的选择去说明这些种类的各种外观。FMD被用于材料感知和识别的新feature和learning方法的研究。虽然FMD朝着材料识别迈出了重要的一步，但它不足以对真实世界的图片进行分类。这是因为越相对较小的categories集，每个种类的图片越少。也因为这个数据集是围绕手工挑选的材料的图标图面。OpenSurfaces数据集通过真实世界的图像，引入105,000个材料分割，这是远远大于FMD的。然后，在OpenSurfaces中，很多categories是欠采样的，只有数十张图片。

我们的一个主要贡献是一个新的，良好采样的材料数据集，被称为Materials in Context Database(MINCE), 它包含3百万个材料样本。MINC是非常多样性的，一些冷门的categories也拥有更多的样本，并且比现有的数据集大得多。MINC从Flick images提取数据，其中包含很多“常规”场景；也从Houzz images提取了专业摄影师的室内设计的图片。这些图片都有不同的特点，增加了可以被识别的材料的范围。Figure 2是我们数据的例子。我们在线公布了全部数据集http://minc.cs.cornell.edu/

我们通过训练在这个新数据集上不同的CNN结构来进行材料识别。我们对网络结构、图片上下文和整张图片中分区域训练数据的size进行实验。更深层次的，我们建立了patch classification结果和使用fully connected conditional random filed(CRF)演示了图片的材料识别和分区。通过替换CNN的全连接层，计算负担明显低于朴素的滑动窗口方法。

总结来说，我们做了2个新的贡献：

我们引入了一个新的材料数据集，MINC，和3个阶段的crowdsourcing pipeline为了有效地手机数百万的点击标签（Section 3.2）。
为了材料识别和分割，提出了新的语义分割方法。它合并了fully-connected CRF 和基于CNN learned features一元预测（Section 4.2）。

2.以前的工作

Material Databases。以前的很多工作注意力集中于给一些textures 或者material samples的实例进行分类。比如说，CUReT database 包含61种材质样本，每一种捕获205种不同的光线和观看情况。这导致对instance-level texture或者material classification的研究，以及对构建姿势和照明不变的features挑战的理解。后来，每个category有着更多样性的样本的数据集开始出现，比如说KTH-TIPS。这些数据集引导探索了如何从一个材料的样本推广到另一种材料的样本，比如说从木材的样本到另一种完全不同的样本。最近还探索了真实世界的texture属性。

在分类材料数据库领域，Sharan等人发布了FMD。后来，Bell等人发布了OpenSurfaces。它包含了超过2万个真实世界的毕竟被labeled的材料和物体，通过使用multi-stage crowdsourcing pipeline。因为OpenSurfaces 图片是从Flickr的用户图片抽取来的，material 样本有真实世界的上下文，这与之前的数据库（CUReT，KTH-TIPS，FMD，包含被剪裁的独立样本）相反。虽然OpenSurfaces是材料数据库的良好起点，但我们通过数百万个新标签大幅扩展它。

Convolutional neural networks. 虽然CNN已经存在了几十年，但早期的成功，比如LeNet，它们最近才取得了object classification和detection的当前最尖端成果，取得了最大的进步。由ILSVRC challenge驱动，我们看见很多成功的CNN结构，它们由Krizhevsky等在SuperVision network的工作和最近的结构，包含GoogLeNet。除了image classification，CNN用于detection和localization of objects。最近的工作包含R-CNN，Overfeat和VGG.最后，与我们的目标，per-pixel material segmentation，相关，Farabet等使用muti-scal CNN去预测segmentation中每个pixel所属的class。Oquab等使用滑动窗口的方法去localize patch classification物体。我们在deep learning的这一部分工作的基础上解决了material recognition和segmentation的问题。

3.The Materials in Context Database（MINC）

我们选择来描述我们建立新material database的方法。为什么要使用新的database？我们需要一个满足一下条件的dataset：

Size：它应该足够大，能够让learning methods可以泛化。
Well-sampled：冷门的categories应该也要有很多数量的样本。
Diversity：图片应该涵盖各种材质在真实世界的各种外观。
Number of categories：它应该包含现实世界中的很多不同的materials。

3.1. Sources of data

我们决定从公众开始，众包OpenSurfaces数据集作为MINC的种子，因为它是从具有合理多样性的日常现实场的Flickr图像中提取的。此外，MINC具有大量categories和所有先前数据库的大多数样本。

尽管OpenSurfaces data是一个好的开始，它还是由一些限制。很多categories没有被well sampled。尽管最大的categories，比如wood包含了将近20K的样本，冷门的种类，比如water，只有数十个样本。这个数据的不平衡是因为Opensurfaces数据集的注释方式；Amazon Mechanical Turk（AMT）可以自由选择任意material subregion进行segment。Workers进场倾向于使用某些常见的materials或者salient objects，而不是鼓励它们标记不同的materials。此外，图片来自单个源（Flickr）。

我们决定给OpenSurfaces增加更多的数据，特别是underrepresented material categories。至少增加到每个material category 10K个样本。我们从imagery，professional photos on the interior design website Houzz (houzz.com)上收集数据。我们使用不同源的数据的目的是【尽管Houzz photo是更加“staged”（relative to Flickr photos），它们事实上展现出更多的materials的多样性】。比如，Houzz photos包含了很多类型的抛光的石头。有了这些图像数据源，我们现在描述我们如何收集material annotations。

3.2. Segments，Clicks，and Patches

什么特定类型的material annotations可以构建成良好的database？我们该如何收集这些annotations？要收集的material annotations在很大程度上取决于我们希望为其生成训练数据的任务。对于一些任务，比如说scene recognition, whole-image labels 是足够的。对于object detection，labels bounding boxes 作为 PASCAL是经常被使用。对于segmentation或者scene parsing任务，per-pixel segmentations 是需要的。每种风格的annotation都带有与其复杂性成比例的成本。对于materials，我们决定关注两个问题：

Patch material classification。给出一个image patch，判断中间的部分是什么类型的material。
Full scene material classification。给出一个full image，产生一个full per-pixel segmentation和labeling。也被认为是semantic segmentation或者scene parsing（但是我们的工作聚焦于materials）。记住，classification可以是segmentation的组成部分。比如滑动窗口的方法。

Segments. OpenSurfaces 包含精心绘制的多边形material segmentations。它们包含相同材质区域（same-material regions）。为了形成MINC的基础，我们选择了具有高可信度的OpenSurfaces细分（inter-worker agreement）和低可信度的手动策划细分，总共72K形状。为了平衡categories，我们人为的segmented上百个额外的样本给sky，foliage和water。

因为OpenSurfaces的一些种类对人来说难以区分，我们综合了那些种类（把它们当成一种category？）。我们发现很多AMT worker 不能区分concrete和stone，clear plastic和opaque plastic，granite和marble。因此，我们将它们分别合并进stone，plastic和polished stone。如果没有这些合并。这些类别中的样本会被判断错误。最终由23种categories，显示在Table 1。 Category other 是不同的，它是通过组合各种较小的categories创建的。

Clicks. 因为我们想要扩大数据集到百万级别的样本，我们决定增加OpenSurfaces segments通过收集clicks：在图片中有material label的单个点，这些点可以更方便、更快速地收集。Figure 3 展示了我们的pipeline for collecting clicks。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Figure 3：worker A从一堆图片中挑选出含有某个material的图片， worker B从一张图片中选出选包含某个material的patches，worker C判断patch属于哪个material。

最初，我们尝试要求workers去点击图片中的material。然后，我们发现workers会很受挫，如果一张图中出现了很多material。因此，我们加入了最初第一阶段，workers过滤出那些图片。为了增加labels的准确性，我们验证这些click labels通过不同的worker去辨别每个click的material，在不提供从上一个阶段获取到的标签的基础上。

为了确认我们获得高质量的annotations和避免收集不用功的workers的labels，我们在第一和第三阶段隐藏了已知的labels(sentinels)，并且控制正确率分别高于50%和85%。我们在第二阶段没有使用sentinels，因为它要求per-pixel ground truth labels，结果证明那是没有必要的。Workers通常执行所有的三项任务，因此我们可以识别在第一或者第三任务中的bad worker

OpenSurfaces images 和 new Houzz images都被收集Material clicks。这使得我们能够使用labels 去生成标记（sentinel）数据；每个任务我们包含了4个标记（sentinel）数据。在这个streamlined pipeline，我们收集了2，341，473个annotations，平均每个annotation花费0.00306美元（stage1，$0.02/40 images, stage2, $ 0.10/50 images, stage 3: $0.10/50 points）。

Patches. Labeled segments 和clicks form 构成给了MINC的核心。为了训练CNN和其他类型的classifier，以固定大小的patches形式提供的数据是非常游泳的。我们转换了数据的形式成统一的数据集样式：square image patches。我们使用patch center和patch scale（较小图片维度的multiplier）去定义图片的subregion，变成patch。在我们的patch classification实验，我们使用了23.3%的较小图片维度。增加patch scale提供更多的内容，但是减少了空间分辨率（spatial resolution）。在后面的Section 5，在实验中我们更改了AlexNet的patch scale来辩解了我们的选择。

我们在每个click label周围放置了一个patches。对于每个segment，如果我们在每个内部像素都放置patch，那么我们将拥有一个非常大而且冗余的数据集。因此，我们对每个segment进行泊松分布采样（poisson-disk）子采样，分离patch centers 至少9.1%的较小维度。这些segments产生655，201个patches（平均9.05patches per segment）。最终，我们产生了2，996，674个labeled patches从436，749张图片中。Patch计数如Table 1所示。Categories的一些patches样本在Figure 2中展示。

4.Material recognition in real-word images

我们的目标是训练一个系统去识别一张图片中的所有像素的material。我们把训练过程分成多个阶段，并且分析每个阶段的network的性能。第一步，我们训练一个CNN网络去预测输入的patch属于哪个material。第二步，我们改造CNN成一个滑动窗口在图像上的密集网格上预测materials。我们在multiple scales和average下执行此操作以获得一元项（unary term）。第三步，密集的CRF将unary term与fully connected pairwise reasoning 相结合，输出一个per-pixel material predictions。整个系统在Figure 1中描绘，往下的内容中也会进行描述。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Figure 1：（a）我们通过合并OpenSurfaces和最新的three-stage Amazon Mechanical Turk(AMT) pipeline，构建一个新的数据集。（b）我们训练多种CNN，去预测MINC中patches的material labels。（c）我们将权重转移到fully convolutional CNN以有效地生成图像上的概率图；然后，我们用fully connected CRF去去预测every pixel material。

4.1 Training procedure

MINC包含3百万patches，我们将它们分开用来training，validation和test sets。随机分开会导致几乎相同的patches（例如，来自相同的OpenSurfaces segment）被置于training和test，那会导致测试分数暴涨。为了防止关联，我们将图片分组为near-duplicates的clusters，然后将每个cluster分配给train、validation或者是test。我们确保在test中每个category至少有75个segment，来保证有足够的segment去评价segmentation的准确性。为了检测near-duplicates，我们比较每张图片的AlexNet CNN 计算出的特征（详见补充资料）。

我们通过微调（fine-tuning）网络来训练我们所有的CNN，从通过训练从ImageNet获得的120万张图像获得的权重开始。当我们训练AlexNet，我们使用随机梯度下降，batchsize 128， dropout rate 0.5，momentum 0.9，base learning rate 10-3 每50，000个迭代衰减0.25倍（learning rate * 0.25？）。对于GoogLeNet，我们使用batchsize 69，dropout 0.4，learning rate t是迭代次数。

我们的training set中的每个 class有不同数量的样本，所以我们循环遍历各个class，并且从每个class随机采样一个样本。未能正确平衡这些样本导致mean class accuracy 下降了5.7%（在validation set）。此外，为了减少overfitting，我们通过采取修剪（256×256中的227×227），水平镜翻转，spatial scales in range [1/sqrt(2),sqrt(2)]，横纵比从3：4变成4：3，幅度变化[0.95.1.05]来增加样本。因为我们正在查看局部区域，我们减去per-channel mean（R:124, G:117, B:104）,而不是mean image。

4.2. Full scene material classification

Material Recognition in the Wild with the Materials in Context Database论文笔记

Figure 4：pipeline for full scene material classification. 图片（a）是resized to multiple scales [1/sqrt(2),1,sqrt(2)]。相同的sliding CNN预测每个scale上图像的概率图（b）；结果进行上采样和平均。Fully connected CRF预测each pixel的标签（c）。这个样本展示了从一个single GoogLeNet变换到sliding CNN（no average pooling）。

Figure 4 展示了我们同时进行segmenting和recognizing materials的方法。给定可以对图像中的各个点进行分类的CNN，我们将其转换为sliding window detector，并且对图像中的网格进行densely classify。特别的是，我们用convolutional layers替换了最后一个fully connected layers，这样网络就是fully convolutional，可以对任何形状的图像进行分类。经过转换后，权重是固定的而不是fine-tuned。通过我们的converted network，每层strides使网络每32个pixels输出一次预测。我们通过移动来获得每16个像素的预测半步输入图像（16像素）。虽然这似乎需要4倍的计算，Sermanet等表明卷积可以重复使用，只需要重新计算pool5到fc8层的half-strides shifts。增加half-strides使得不同segments的mean class accuracy提高0.2％（在应用dense CRF后，如下所述），并且点击位置的mean class accuracy大致相同

调整输入图像的大小，使patch映射到256x256 square。因此，对于以patch scales训练的网络，resized input具有较小的维度 d=256/s。注意，d与scale成反比，因此增加的context导致较低的空间分辨率。我们加入padding，所以在上采样时，输出的概率图与输入对齐。我们重复3种不同的scales（smaller dimension d/ sqrt(2), d, d sqrt(2)）,用bilinear interpolation对每个输出的概率图进行上采样，并对预测进行取平均。为了下个步骤更有效率，我们将输出的上采样固定成更小的维度，550。

当我们使用dense CRF 去预测每个pixel的label，使用以下的energy：

Material Recognition in the Wild with the Materials in Context Database论文笔记

Material Recognition in the Wild with the Materials in Context Database论文笔记是unary energy（negative log of aggregated softmax probabilities）

Material Recognition in the Wild with the Materials in Context Database论文笔记是pairwise term，连接图片中的每个pair of pixel。We use a single pairwise term with a Potts label compatibility term δ weighted by wp and unit Gaussian kernel k. For the features fi, we convert the RGB image to L*a*b* and use color Material Recognition in the Wild with the Materials in Context Database论文笔记 and positionas pairwise features for each pixel:

, where d is the smaller image dimension.

Figure 4 展示了unary term pi和resulting segmentation x的例子。

5.Experiments and Results

5.1. Patch material classification

在这一章，我们评估了许多不同设计决策对material classification和segmentation的训练方法的影响，包括各种CNN架构，patch size和数据量。

CNN Architectures. 我们的最终目标是full material segmentation，但我们也有兴趣探索哪些CNN架构可以为classifying single patch提供最佳结果。在我们尝试的网络和参数变化中，我们发现性能最佳的网络是AlexNet [13]，VGG-16 [27]和GoogLeNet [28]。AlexNet和GoogLeNet是BVLC [11]的重新实现，而VGG-16是[27]的配置D（16层网络）。所有模型均来自Caffe Model Zoo [11]。我们的实验使用AlexNet以评估material classification design decisions；以及使用AlexNet和GoogLeNet的组合，以评估meterial segmentation。Table 2 和3 总结了我们数据集的patch material classification results。Figure 10以高可信度展示了正确和不正确的预测。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Input patch scale.要对图像中的点进行分类，我们必须确定要在其周围包含多少context。以图像大小的一小部分表示的context是patch scale。先验地，不清楚哪个尺度最佳，因为small patches具有更好的空间分辨率，但是large patches具有更多的上下文信息。保持patch centers固定，我们变化scale，并使用AlexNet评估分类准确性。Patch scales 的结果和可视化在Figure 5中展示。Sacle 32%表现的最好。独立的categories在middle scale表现的最好，除了一些例外；我们发现mirror，wallpaper和water有所提升随着context的增加（Figure 7）。我们使用23.3%（它拥有近乎相似的准确率但是有更高的空间分辨率）在我们的实验中。

Figure 5：Varying patch scale。我们train/test patches的不同scale（the patch locations do not vary）。最优的是在context和spatial resolution之间进行权衡。CNN：AlexNet。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Figure 7：Accuracy vs patch scale by category。 Dots：每个category的峰值正确率；colored lines：sky，wallpaper，mirror；gray lines：other categories。CNN：AlexNet。虽然大多数的materials在23.3%或32%patch scale是最优的，sky，wallpaper和mirror随着context的增加，识别是增加的。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Dataset size. 为了测量size对patch classification准确度的影响，我们使用AlexNet训练来自所有369,104个训练图像的随机采样子集，并在我们的完整测试集上进行测试（图6）。

Figure 6：varying database size.在MINC的随机子集上训练时的Patch 准确率。Equal size每个category使用了相同数量的样本（size由最小的category决定）。CNN：AlexNet。

Material Recognition in the Wild with the Materials in Context Database论文笔记

Dataset balance. 虽然我们已经证明更多数据更好，但我们也发现平衡数据集更有效率。我们使用我们smallest category（wallpaper）的所有patches训练AlexNet，随机抽取较大的categories（最大的，wood，大40倍），使其大小相等。然后，我们在相同的完整测试集上测量mean classaccuracy。像Figure 6中展示的，“equal size” 是比相同大小的数据集更准确，仅比full training set（大9倍）低1.7%。该结果进一步证明了以平衡方式构建数据集的价值，重点是扩展最小，最不常见的类别。

5.2 Full scene material segmentation

我们的patch dataset包含41，801张图片，但是大多数都只包含很少的label。由于我们要评估per-pixel classification的表现，因此我们选择5,000张测试照片的子集，以便每张照片都包含大量segments和clicks，并且可以很好地对samll categories进行抽样。我们贪婪地解决最好的这类照片。我们同样选择了25,844选2,500张validation photos。我们对所有实验的分割都包含在数据集中。为了训练CRF，我们尝试了很多参数设定和选择在validation中表现的最好的model。总的来说，我们评估了CNN和CRF参数的1799种组合。请参阅补充材料以获得详细分类。

我们尝试了GoogLeNet的很多中版本：包括最初的结构和在average pooling layer（在最后）更改成5*5，3*3，还有1*1( no average pooling)的版本。我们评价AlexNet的训练在multiple patch scales（Figure 5）。当使用AlexNet训练不同的scale，我们使用相同的scale去testing。我们还尝试了GoogLeNet和AlexNet的集合，结合arithmetic或geometric mean。

因为我们由两种类型的数据，clicks和segments，我们对两个sets进行实验：（a）我们支队segments训练和测试，在separate experiment（b）我们只对clicks训练和测试。这两个培训目标导致了非常不同的行为，如Figure 9所示。在实验（a），各个segments之间的精度得到优化，产生清晰的边界。在实验（b），CRF只在click location最大化精确度，导致边界模糊。如Table 4所示，两种实验的score明显不同：segments比clicks更具有挑战性（更难训练）。尽管clicks对于训练CNN是足够的，但是对于训练CRF是不足够的。

Material Recognition in the Wild with the Materials in Context Database论文笔记

聚焦于segmentation accuracy，我们注意到Table 4（a）最好的single model是没有使用average pooling的GoogLeNet（6% better than with pooling）。最好的ensemble是2CNN：GoogLeNet（no average pooling）和AlexNet（patch scale：46.5%），于arithmetic mean 组合。由于averaging worse CNN，因此较大的ensemble表现更差。在Figure 8中，我们显示了测试图像上的示例labeling results

5.3. Comparing MINC to FMD

比起FMD，对于真实世界图像的分类，MINC的size和diversity是好的。Table 5展示了在FMD上训练之后在MINC上测试，反之亦然。结果显示在FMD上训练的结果不足以对真实世界的图片进行分类。虽然看起来我们的数据集“很简单”，因为FMD的最佳分类得分低于MINC，我们发现难度实际上与数据集的大小密切相关（Section 5.1）。每个类别抽取100个随机样本，AlexNet在MINC上达到54.2±0.7％（仅考虑10个FMD类别时达到64.6±1.3％）和在FMD上达到66.5％。

5.4. Comparing CNNs with prior methods

Cimpoi 是在FMD上最好的prior material classification方法。我们发现通过用过采样的AlexNet特征替换DeCAF，我们比他们的FMD结果有所提升。我们展示在MINC,fine-tunned CNN甚至是更好的。

为了改进[3]，我们采用他们的SIFT IFV，将其与AlexNet fc7功能相结合，并添加过采样[13]（详见补充说明）。用Linear SVM，我们在FMD取得了69.6+-0.3%。previous results在Table 6中有被列出。

我们发现SIFT IFV + fc7是FMD的最佳选择，我们将其与MINC子集上的fine-tuned CNN进行比较（2500 patches per category，one patch per photo）。Fine-tuning AlexNet 取得 76.0+-0.2%，而使用linear SVM的SIFT_IFV+fc7取得了67.4+-0.5%（oversampling, 5 splits）。这个实验表明了在MINC上fine-tuned CNN是更好的方法，对比SIFT_IFV+fc7。

6. Conclusion

Material recognition是一个长期存在的挑战性问题。我们引入了一个新的大型开放式material database，MINC，其中包括各种日常场景和分阶段设计的内部材料，并且至少比以前的数据库大一个数量级。使用这个大型数据库，我们对最近的deep learning算法进行评估，以便同时进行material classification和segmentation，并获得超越先前material recognition的结果

我们学到了一些教训：

对包含周围环境的数据集进行训练对于真实世界的material classification至关重要。
Labeled click很便宜，而且足以单独训练CNN。但是，为了获得高质量的segmentation，在多边形上训练CRF会产生比training on click更好的边界。

许多未来的工作途径仍然存在。将数据集扩展到更广泛的categories将需要新的方法来挖掘具有更多种类的图像，以及具有成本效益的新annotation tasks。受textures attributes的启发[3]，未来我们希望识别material attributes并扩展我们的数据库以包含它们。我们还认为，对joint material和object classification和segmentation的进一步探索将是富有成效的[10]，并导致两项任务的改进。我们的数据库，训练好的模型和所有的实验结果可以在线获得：http://minc.cs.cornell.edu/.

致谢。 这项工作部分由谷歌，亚马逊AWS教育，NSERC PGS-D奖学金，国家科学基金会（授予IIS-1149393，IIS-1011919，IIS-1161645）和英特尔视觉计算科技中心提供支持。。