array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>Learning to Navigate for Fine-grained Classiﬁcation - 爱码网</title>
     
<meta name="keywords" content="Learning to Navigate for Fine-grained Classiﬁcation" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-204208858.html" title="Learning to Navigate for Fine-grained Classiﬁcation">Learning to Navigate for Fine-grained Classiﬁcation</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-08-10">2021-08-10</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<p>ECCV 2018 北京大学</p>
<h3>
<a target="_blank" rel="nofollow"></a>Abstract</h3>
<p>找出完全表征对象的细微特征并不简单（细粒度分类的挑战性）</p>
<p>文章提出新颖的自监督(self-supervision)机制，无需bbox和part annotations，即可有效定位信息区域。</p>
<p>模型：NTS-Net（ Navigator-Teacher-Scrutinizer Network）== Navigator agent，Teacher agent和Scrutinizer agent组成</p>
<p>考虑到informativeness of the regions与ground-truth class概率之间的内在一致性，设计了一种新颖的训练机制，使<strong>Navigator能够在Teacher的指导下检测大部分信息区域（informative regions)。之后，Scrutinizer仔细检查Navigator中建议区域(proposed regions)并进行预测。</strong></p>
<h3>
<a target="_blank" rel="nofollow"></a>1 Introduction</h3>
<p>细粒度分类的挑战来源于信息区域（informative regions）和提取其中的判别区域（discriminative features）。深度学习的兴起</p>
<p><strong>总结最近的工作</strong></p>
<ul>
<li>监督学习：需要bbox和part annotation人工注释，但是代价昂贵，在实际生活中不常用</li>
<li>无监督学习：learning scheme to localize informative regions，缺点是缺乏保证模型聚焦于正确区域的机制，这通常会导致精度降低。</li>
</ul>
<p><strong>NTS-Net工作机制</strong></p>
<ul>
<li>Navigator关注最具信息性的区域：对于图像中的每个区域，Navigator预测区域的信息量，并使用预测来提出（propose）信息量最大的区域。</li>
<li>Teacher评估Navigator建议的区域并提供反馈：对于每个建议区域（proposed region），Teacher评估其属于ground-truth class的概率；置信度评估（confidence evaluation）指导Navigator用其提出的排序一致（ordering-consistent）损失函数来提出更多信息区域。</li>
<li>Scrutinizer仔细检查Navigator中建议区域并完成细粒度分类：每个建议区域被resize到相同的大小，并且Scrutinizer提取其中的特征；区域特征和整个图像的特征被联合处理，以完成细粒度分类。</li>
</ul>
<p>该方法可以看作是强化学习中的<strong>actor-critic机制</strong>，其中Navigator是actor，Teacher是critic。通过Teacher提供的更精确的监督，Navigator将定位更多信息区域，这反过来将有利于Teacher。因此，agents共同进步并最终得到一个模型，该模型提供准确的细粒度分类预测以及更大的信息区域。</p>
<h3>
<a target="_blank" rel="nofollow"></a>2 Related Work</h3>
<p><strong>2.1 Fine-grained classiﬁcation</strong> ~</p>
<p><strong>2.2 Object detection</strong> ~</p>
<p><strong>2.3 Learning to rank</strong></p>
<p>$X = <span>KaTeX parse error: Expected '}', got 'EOF' at end of input: {</span>X_1,X_2,…,X_n$} denote the objects to rank</p>
<p>$Y = <span>KaTeX parse error: Expected '}', got 'EOF' at end of input: {</span>Y_1,Y_2,…,Y_n$} the indexing of the objects, where <span><span><span><math><semantics><mrow><msub><mi>Y</mi><mi>i</mi></msub><mo>≥</mo><msub><mi>Y</mi><mi>j</mi></msub></mrow><annotation encoding="application/x-tex">Y_i≥Y_j</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.22222em;">Y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.22222em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>≥</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.22222em;">Y</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.22222em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span> means <span><span><span><math><semantics><mrow><msub><mi>X</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">X_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span> should be ranked before <span><span><span><math><semantics><mrow><msub><mi>X</mi><mi>j</mi></msub></mrow><annotation encoding="application/x-tex">X_j</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span></p>
<p><span><span><span><math><semantics><mrow><mi>F</mi></mrow><annotation encoding="application/x-tex">F</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.13889em;">F</span></span></span></span></span> ：ranking function that minimize a certain loss function.（就是给定一个X到Y的映射函数F，loss最小）</p>
<p>ranking methods：</p>
<ul>
<li>point-wise approach</li>
</ul>
<blockquote>
<p>给每个数据assign一个数值，然后就可以转化为回归问题，如：</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjMk5pOHlOREl3T0RoaE9ERTFaR05pWmpjd05XUmlNakkzWXpFMFlqWm1ZV0UxTmk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
</blockquote>
<ul>
<li>pair-wise approach</li>
</ul>
<blockquote>
<p>假定<span><span><span><math><semantics><mrow><mi>F</mi><mo stretchy="false">(</mo><msub><mi>X</mi><mi>i</mi></msub><mo separator="true">,</mo><msub><mi>X</mi><mi>j</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">F(X_i,X_j)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.03611em; vertical-align: -0.286108em;"></span><span style="margin-right: 0.13889em;">F</span><span>(</span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>只有两种取值{0,1}，<span><span><span><math><semantics><mrow><mi>F</mi><mo stretchy="false">(</mo><msub><mi>X</mi><mi>i</mi></msub><mo separator="true">,</mo><msub><mi>X</mi><mi>j</mi></msub><mo stretchy="false">)</mo><mo>=</mo><mn>0</mn></mrow><annotation encoding="application/x-tex">F(X_i,X_j) = 0</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.03611em; vertical-align: -0.286108em;"></span><span style="margin-right: 0.13889em;">F</span><span>(</span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span><span>)</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.64444em; vertical-align: 0em;"></span><span>0</span></span></span></span></span> means <span><span><span><math><semantics><mrow><msub><mi>X</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">X_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span> ranked before <span><span><span><math><semantics><mrow><msub><mi>X</mi><mi>j</mi></msub></mrow><annotation encoding="application/x-tex">X_j</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.07847em;">X</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05724em;">j</span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>.(排序正确)</p>
<p>the goal is to ﬁnd an optimal F to minimize the average number of pairs with wrong order.</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFNE55OWpaVEV4TW1JME5ETmlZekF6T0RrMVpXWmxaVGRtTXpJd09EUTNNbVF4TXk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
</blockquote>
<ul>
<li>list-wise approach</li>
</ul>
<blockquote>
<p>直接优化整个列表，<span><span><span><math><semantics><mrow><mi>F</mi><mo stretchy="false">(</mo><mi>X</mi><mo separator="true">,</mo><mi>Y</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">F(X,Y)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.13889em;">F</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.22222em;">Y</span><span>)</span></span></span></span></span> is the ranking function</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFME1DODFZamxtT0RRM01EazNNRFEzTldFeFpqUmxZbVF3WldZM01XSTVZbUUwTkM1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
</blockquote>
<p>该论文中navigator loss function 使用的是multi-rating pair-wise ranking loss（多等级两两排序损失）</p>
<h3>
<a target="_blank" rel="nofollow"></a>3 Methods</h3>
<p>模型框架</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFM09DODBNVE5oWkRNMFlXTmlPR1V3TlRBeE16RmxOamd4WWpsbE4ySmtPRGMyWVM1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<p>一一介绍：navigator、teacher、scrutinizer</p>
<h4>
<a target="_blank" rel="nofollow"></a>3.1 Approach Overview</h4>
<p>假设：信息区域（information regions）可以更好的表征对象，所以融合信息区域和全图像的特征可以获得更好的性能</p>
<p>目标：localize the most informative regions。</p>
<p>假设所有的区域都是矩形</p>
<p>符号说明：</p>
<ul>
<li>
<p>A ：给定图像中所有的区域集合</p>
</li>
<li>
<p>information function <span><span><span><math><semantics><mrow><mi>I</mi></mrow><annotation encoding="application/x-tex">I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07847em;">I</span></span></span></span></span>：给定区域 <span><span><span><math><semantics><mrow><mi>R</mi><mo>∈</mo><mi>A</mi></mrow><annotation encoding="application/x-tex">R∈A</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.72243em; vertical-align: -0.0391em;"></span><span style="margin-right: 0.00773em;">R</span><span style="margin-right: 0.277778em;"></span><span>∈</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span>A</span></span></span></span></span>，评价其所含信息多少，即 <span><span><span><math><semantics><mrow><mi>A</mi><mi mathvariant="normal">—</mi><mo>&gt;</mo><mo stretchy="false">(</mo><mo>−</mo><mi mathvariant="normal">∞</mi><mo separator="true">,</mo><mi mathvariant="normal">∞</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">A —&gt;(-∞,∞)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.72243em; vertical-align: -0.0391em;"></span><span>A</span><span style="margin-right: 0.02778em;">—</span><span style="margin-right: 0.277778em;"></span><span>&gt;</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>(</span><span>−</span><span>∞</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>∞</span><span>)</span></span></span></span></span></p>
</li>
<li>
<p>confidence function <span><span><span><math><semantics><mrow><mi>C</mi></mrow><annotation encoding="application/x-tex">C</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07153em;">C</span></span></span></span></span>：<span><span><span><math><semantics><mrow><mi>A</mi><mi mathvariant="normal">—</mi><mo>&gt;</mo><mo stretchy="false">[</mo><mn>0</mn><mo separator="true">,</mo><mn>1</mn><mo stretchy="false">]</mo></mrow><annotation encoding="application/x-tex">A —&gt;[0,1]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.72243em; vertical-align: -0.0391em;"></span><span>A</span><span style="margin-right: 0.02778em;">—</span><span style="margin-right: 0.277778em;"></span><span>&gt;</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>[</span><span>0</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>1</span><span>]</span></span></span></span></span>，表示区域属于ground-truth class的置信度</p>
</li>
</ul>
<p>more informative regions should have higher conﬁdence，</p>
<p>使用Navigator网络来近似information function <span><span><span><math><semantics><mrow><mi>I</mi></mrow><annotation encoding="application/x-tex">I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07847em;">I</span></span></span></span></span> 和Teacher网络来近似 confidence function <span><span><span><math><semantics><mrow><mi>C</mi></mrow><annotation encoding="application/x-tex">C</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07153em;">C</span></span></span></span></span>.</p>
<p>Navigator网络评估其informativeness <span><span><span><math><semantics><mrow><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>i</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">I(R_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>，Teacher网络评估其confidence <span><span><span><math><semantics><mrow><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>i</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">C(R_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>。</p>
<p>为了满足Condition1，优化Navigator网络使 { $ I(R_1),I(R_2),…,I(R_M) $}和 { $ C(R_1),C(R_2),…,C(R_M) $}具有相同的顺序。</p>
<p><strong>随着Navigator网络根据Teacher网络的改进，它将产生更多信息区域，以帮助Scrutinizer网络产生更好的细粒度分类结果。</strong></p>
<h4>
<a target="_blank" rel="nofollow"></a>3.2 Navigator and Teacher</h4>
<p>受到anchor的启发，对于输入的图像，得到一组矩形区域 {<span><span><span><math><semantics><mrow><msubsup><mi>R</mi><mn>1</mn><mo mathvariant="normal">′</mo></msubsup><mo separator="true">,</mo><msubsup><mi>R</mi><mn>2</mn><mo mathvariant="normal">′</mo></msubsup><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msubsup><mi>R</mi><mi>A</mi><mo mathvariant="normal">′</mo></msubsup></mrow><annotation encoding="application/x-tex">R_1',R_2',...,R_A'</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.02722em; vertical-align: -0.275331em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.45189em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.248108em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.45189em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.248108em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.751892em;"><span style="top: -2.42467em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>A</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>′</span></span></span></span></span><span>​</span></span><span><span style="height: 0.275331em;"><span></span></span></span></span></span></span></span></span></span></span>}，其中每个anchor都有一个信息量分数。<img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpZeE1pOWpNVGswT1RFeVpXVTFZMkV4TlRjeU1HWm1OMlF5TTJKa05XRTBNR1ZtWXk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br>
input image size=448, scales = {48,96,192}, ratios={1:1,2:3,3:2},对所有anchors进行信息量排序<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprMU5TODNNalUyTjJFd1l6RmhaakpoT0dFMk9EQTFOV1E1WXpaak9XUTNPVFpqTXk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<p>其中，A表示anchors数量，<span><span><span><math><semantics><mrow><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>i</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">I(R_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>表示信息排序列表中第i个元素。</p>
<p>使用NMS减少冗余的区域，将信息排序列表中的前M个区域 {<span><span><span><math><semantics><mrow><msub><mi>R</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>R</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>R</mi><mi>M</mi></msub></mrow><annotation encoding="application/x-tex">R_1,R_2,...,R_M</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}输入到teacher网络中来获得其置信度为{<span><span><span><math><semantics><mrow><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>M</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">C(R_1),C(R_2),...,C(R_M)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>}，其中M是个超参数</p>
<p>优化navigator网络的目标：优化navigator网络使得{<span><span><span><math><semantics><mrow><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>M</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">I(R_1),I(R_2),...,I(R_M)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>}和{<span><span><span><math><semantics><mrow><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>1</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mn>2</mn></msub><mo stretchy="false">)</mo><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><mi>C</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>M</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">C(R_1),C(R_2),...,C(R_M)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.07153em;">C</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span>}具有相同的顺序。</p>
<p>优化teacher网络的目标：最小化ground-truth class和predicted confidence之间的交叉熵损失。</p>
<h4>
<a target="_blank" rel="nofollow"></a>3.3 Scrutinizer</h4>
<p>随着Navigator network逐渐收敛，它将产生信息性的对象特征区域，以帮助Scrutinizer network做出决策。 我们使用<strong>前K个信息区域与完整图像相结合</strong>作为输入来训练Scrutinizer network。 即那些K个区域用于促进细粒度识别。</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFeE55ODJNbUUzT0ROa05URmpNalkxWlRWaE9UTm1aREUyTnpneE1ERmhObVU1TlM1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<p>[25]表明使用信息区域能减少类内差异，并可能在正确的标签上产生更高的置信度。通过对比实验表明，添加信息区域可以显著地改善大部分数据集的细粒度分类结果，包括cub200 -2001、FGVC Aircraft and Stanford Cars.</p>
<h4>
<a target="_blank" rel="nofollow"></a>3.4 Network architecture</h4>
<p>feture extractor：在ILSVRC2012数据集上pretrain好的ResNet-50</p>
<p>符号说明：</p>
<ul>
<li>
<strong>W</strong>：feature extractor中的参数</li>
<li>
<strong>X</strong>：input iamge</li>
<li>
<strong>X</strong> <span><span><span><math><semantics><mrow><mo>⨂</mo></mrow><annotation encoding="application/x-tex">\bigotimes</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.00001em; vertical-align: -0.25001em;"></span><span style="position: relative; top: -5e-06em;">⨂</span></span></span></span></span> <strong>W</strong>： extracted deep representations 提取到的深层特征表示</li>
</ul>
<p><strong>Navigator network</strong></p>
<blockquote>
<p>类似于Feature Pyramid Networks（FPN）结构，在不同尺度Feature maps上生成多个候选框，(较大feature map的anchors对应较小的区域)，这样不同尺度下的feature map中的anchors就能产生不同大小的informative regions。</p>
<p>settings：</p>
<ul>
<li>feature map size：{14x14,7x7,4x4} corresponding to regions of scale {48x48,96x96,192x192}</li>
<li>navigator网络中的参数：<strong><span><span><span><math><semantics><mrow><msub><mi>W</mi><mi>I</mi></msub></mrow><annotation encoding="application/x-tex">W_I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07847em;">I</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span></strong> (包括在feature extrator中的共享参数)</li>
</ul>
<p>每个候选框的坐标与预先设计好的Anchors相对应。Navigator做的就是给每一个候选区域的“信息量”打分，信息量大的区域分数高。</p>
</blockquote>
<p><strong>Teacher network.</strong></p>
<blockquote>
<p>作用： <strong><span><span><span><math><semantics><mrow><mi>C</mi><mo>:</mo><mi>A</mi><mo>→</mo><mo stretchy="false">[</mo><mn>0</mn><mo separator="true">,</mo><mn>1</mn><mo stretchy="false">]</mo></mrow><annotation encoding="application/x-tex">C:A \rightarrow [0,1]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07153em;">C</span><span style="margin-right: 0.277778em;"></span><span>:</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span>A</span><span style="margin-right: 0.277778em;"></span><span>→</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>[</span><span>0</span><span>,</span><span style="margin-right: 0.166667em;"></span><span>1</span><span>]</span></span></span></span></span></strong></p>
<p>输入：M个来自navigator网络的scale-normalized（224x224）个信息区域{<span><span><span><math><semantics><mrow><msub><mi>R</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>R</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>R</mi><mi>M</mi></msub></mrow><annotation encoding="application/x-tex">R_1,R_2,...,R_M</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}</p>
<p>输出confidence score：判断区域属于target label的概率</p>
<p>结构：Feature Extractor + FC（2048） + softmax</p>
<ul>
<li>
<strong><span><span><span><math><semantics><mrow><msub><mi>W</mi><mi>C</mi></msub></mrow><annotation encoding="application/x-tex">W_C</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07153em;">C</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span></strong>：teacher网络的参数</li>
</ul>
</blockquote>
<p><strong>Scrutinizer network</strong></p>
<blockquote>
<p>输入：在navigator网络中选取的top-K个信息区域，resize成预定义好的size（该论文使用224x224）</p>
<p>然后送到feature extractor中，生成K个区域特征向量，each with length=2048</p>
<p>然后将这k个特征向量+原图feature进行concatenate成（K+1）*2048送入FC</p>
<p>符号说明：</p>
<ul>
<li>
<strong>S</strong>：transformation的组合</li>
<li>
<strong><span><span><span><math><semantics><mrow><msub><mi>W</mi><mi>S</mi></msub></mrow><annotation encoding="application/x-tex">W_S</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05764em;">S</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span></strong>：Scrutinizer网络的参数</li>
</ul>
</blockquote>
<h4>
<a target="_blank" rel="nofollow"></a>3.5 Loss function and Optimization</h4>
<p><strong>Navigation loss.</strong></p>
<blockquote>
<ul>
<li>
<p><strong>R = {<span><span><span><math><semantics><mrow><msub><mi>R</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>R</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>R</mi><mi>M</mi></msub></mrow><annotation encoding="application/x-tex">R_1,R_2,...,R_M</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}</strong>：表示由navigator预测的前M个最有信息量的区域，<strong>I = {<span><span><span><math><semantics><mrow><msub><mi>I</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>I</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>I</mi><mi>M</mi></msub></mrow><annotation encoding="application/x-tex">I_1,I_2,...,I_M</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.07847em;">I</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07847em;">I</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07847em;">I</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}</strong>：表示其信息量</p>
</li>
<li>
<p><strong>C = {<span><span><span><math><semantics><mrow><msub><mi>C</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>C</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>C</mi><mi>M</mi></msub></mrow><annotation encoding="application/x-tex">C_1,C_2,...,C_M</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.07153em;">C</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.07153em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.10903em;">M</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}</strong>：表示由teacher网络预测的confidence</p>
</li>
</ul>
<p>navigator loss：</p>
</blockquote>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprMk55OHlNV1l5T0RVME1XSTFaVEl4WWpoaE56a3dOMkl5TkRCaE9XTTFOakZqTnk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<blockquote>
<p>其中 <span><span><span><math><semantics><mrow><msub><mi>I</mi><mi>i</mi></msub><mo>=</mo><mi>I</mi><mo stretchy="false">(</mo><msub><mi>R</mi><mi>i</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">I_i = I(R_i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.07847em;">I</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.07847em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.07847em;">I</span><span>(</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span></p>
<p>函数 f：hinge loss function</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVMU9TOWhOVFUyWkRVNFkyUTBNakZtWW1ZM09XUmpPV1UwWlRJeU9XVmhaak5oTnk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<p>反向传播：</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpRM09TOHdPRFpqTlROaU4yTXpOek0yWW1WaE1qWXdNVEUyWmpZMlpEVTVObVk0Tnk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
</blockquote>
<p>**Teaching loss **</p>
<blockquote>
<blockquote>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFNE5TOWhZVEF4TUdNME56TXpNekV4WkRJd1pHSmtZVFJoT0RNeFkyRXpaVGN3TVM1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br>
The ﬁrst term in Eq. 7 is the sum of cross entropy loss of all regions, the second term is the cross entropy loss of full image.</p>
</blockquote>
</blockquote>
<p>**Scrutinizing loss. **</p>
<blockquote>
<p>navigator网络得到K个最有信息量的regions {<span><span><span><math><semantics><mrow><msub><mi>R</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>R</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>R</mi><mi>K</mi></msub></mrow><annotation encoding="application/x-tex">R_1,R_2,...,R_K</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07153em;">K</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>}</p>
<p>Scrutinizer网络做出细粒度分类结果 <span><span><span><math><semantics><mrow><mi>P</mi><mo>=</mo><mi>S</mi><mo stretchy="false">(</mo><mi>X</mi><mo separator="true">,</mo><msub><mi>R</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>R</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>R</mi><mi>K</mi></msub><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">P = S(X,R_1,R_2,...,R_K)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.13889em;">P</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span style="margin-right: 0.05764em;">S</span><span>(</span><span style="margin-right: 0.07847em;">X</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07153em;">K</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>)</span></span></span></span></span></p>
<p>loss为交叉熵损失：</p>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJeE9DODRZMkl6WkRJNU1EbG1PV1UzWTJWaU9XRXpOR0l6TnpZME5EQmpOek5sTWk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
</blockquote>
<p><strong>total loss</strong><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpreE5TOW1NR1UyWVRJd01tSTFZakl6T1RJMk5HTXdNV0U0WkdJMU16RmtZalJtWWk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br><span><span><span><math><semantics><mrow><mi>λ</mi></mrow><annotation encoding="application/x-tex">\lambda</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>λ</span></span></span></span></span>和<span><span><span><math><semantics><mrow><mi>μ</mi></mrow><annotation encoding="application/x-tex">\mu</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span>μ</span></span></span></span></span>是超参数，作者设置为<span><span><span><math><semantics><mrow><mi>λ</mi><mo>=</mo><mi>μ</mi><mo>=</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">\lambda = \mu = 1</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span>λ</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.625em; vertical-align: -0.19444em;"></span><span>μ</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.64444em; vertical-align: 0em;"></span><span>1</span></span></span></span></span><br>
优化器SGD<br>
流程图：<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprdlpHUTFPV05tTjJGaVpUVTVNVEU1WXpFNVl6WXdNalkwWVdVMFl6Qm1NakV1Y0c1bg==" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjeUx6VmxZVFUyTTJOa05XTTBaV05pWkdVM09UYzFaR0V5WkRVMU9HTm1NVGN3TG5CdVp3PT0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<h3>
<a target="_blank" rel="nofollow"></a>4 Experiments</h3>
<h4>
<a target="_blank" rel="nofollow"></a>4.1 Dataset<img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJeU5TOHhaakEwWkdJNU9HVmlZbUl5TlRCak9USXlZbVJqTjJRMFpHTTBZelpsT1M1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation">
</h4>
<h4>
<a target="_blank" rel="nofollow"></a>4.2 Implementation Details</h4>
<p>preprocess image：resize 448x448</p>
<p>M=6</p>
<p>feature extractor：ResNet-50</p>
<p>Momentum SGD ：initial lr =0.001,60个epoch后衰减为原来的0.1，weight decay=1e-4</p>
<p>NMS阈值=0.25</p>
<h4>
<a target="_blank" rel="nofollow"></a>4.3 Quantitative Results</h4>
<p>ResNet-50 is a strong baseline, which by itself achieves 84.5% accuracy, while our proposed NTS-Net outperforms it by a clear margin 3.0%.(ResNet-50实现84.5%的准确率是在CUB数据集上吗？)</p>
<p>与同样使用ResNet-50作为特征提取器的[26]相比，我们获得了1.5%的改进。值得注意的是，当我们只使用完整的图像(即令K = 0)作为输入到Scrutinizer，我们实现了85.3%的准确性，这也高于ResNet-50。<br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFMUx6ZGpPR0ZtWXpneFptSmhZMlZoTUdFNU5URXdNbVpqWWpSa1pUZGxZMlUzTG5CdVp3PT0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnME1DODFNalE0T1RGaU5EUmtORFZsTmpVek56STJNVE0zTkdRNU5UWTVOelV3T0M1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJME15ODROMlJpTVRKbU56Y3haRGd5WTJGa09EZGhNbU01WmpBME1EVm1PREZsTXk1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"><br><mark>HBP使用caffe的acc为87.1%，backbone为vgg，那采用ResNet-50的acc应该会有提升，但是现在HBP pytorch的acc为83.9%，NTS-Net的acc为 87.5%，还是有明显的提升</mark></p>
<h4>
<a target="_blank" rel="nofollow"></a>4.4 Ablation Study</h4>
<p>table 4.</p>
<ul>
<li>
<p>NS-Net表示没有使用Teacher network，acc从87.5%下降为83.3%，原因：因为navigator没有受到teacher的监督，会提出随机的区域，作者认为这不利于分类。</p>
</li>
<li>
<p>对于超参K，K=2——&gt;K=4时，acc上升0.2%，但是feature维度几乎加倍，但是K=0——&gt;K=2，acc上升2%表明multi-agent的优势。</p>
</li>
</ul>
<h4>
<a target="_blank" rel="nofollow"></a>4.5 Qualitative Results</h4>
<p><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjM01pOWxPRFkzTkRka1pUQTNZMlkxWmpNNFptWXpPVGN5T1daaFpUWTBNek5tTkM1d2JtYz0=" alt="Learning to Navigate for Fine-grained Classiﬁcation" title="Learning to Navigate for Fine-grained Classiﬁcation"></p>
<p>可视化部分：To analyze where Navigator network navigates the model。</p>
<p>选择前4个信息量最多的部分，red&gt;orange&gt;yellow&gt;green</p>
<p>Fig.5第一行，对应前两个信息量最多的区域，即K=2，从第二张图片可以看出，鸟跟背景相似也可以做出比价好的定位</p>
<p>从该图可以看出，信息量最多的地方为 头部、翅膀、身体，这跟人的认知是一样的。</p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>