array(2) { ["docs"]=> array(10) { [0]=> array(10) { ["id"]=> string(3) "428" ["text"]=> string(77) "Visual Studio 2017 单独启动MSDN帮助(Microsoft Help Viewer)的方法" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(8) "DonetRen" ["tagsname"]=> string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer" ["tagsid"]=> string(23) "[401,402,403,"300",404]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400964" ["_id"]=> string(3) "428" } [1]=> array(10) { ["id"]=> string(3) "427" ["text"]=> string(42) "npm -v;报错 cannot find module "wrapp"" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "zzty" ["tagsname"]=> string(50) "node.js|npm|cannot find module "wrapp“|node" ["tagsid"]=> string(19) "[398,"239",399,400]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400760" ["_id"]=> string(3) "427" } [2]=> array(10) { ["id"]=> string(3) "426" ["text"]=> string(54) "说说css中pt、px、em、rem都扮演了什么角色" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(12) "zhengqiaoyin" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400640" ["_id"]=> string(3) "426" } [3]=> array(10) { ["id"]=> string(3) "425" ["text"]=> string(83) "深入学习JS执行--创建执行上下文(变量对象,作用域链,this)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "Ry-yuan" ["tagsname"]=> string(33) "Javascript|Javascript执行过程" ["tagsid"]=> string(13) "["169","191"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511399901" ["_id"]=> string(3) "425" } [4]=> array(10) { ["id"]=> string(3) "424" ["text"]=> string(30) "C# 排序技术研究与对比" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "vveiliang" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(8) ".Net Dev" ["catesid"]=> string(5) "[199]" ["createtime"]=> string(10) "1511399150" ["_id"]=> string(3) "424" } [5]=> array(10) { ["id"]=> string(3) "423" ["text"]=> string(72) "【算法】小白的算法笔记:快速排序算法的编码和优化" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "penghuwan" ["tagsname"]=> string(6) "算法" ["tagsid"]=> string(7) "["344"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511398109" ["_id"]=> string(3) "423" } [6]=> array(10) { ["id"]=> string(3) "422" ["text"]=> string(64) "JavaScript数据可视化编程学习(二)Flotr2,雷达图" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "chengxs" ["tagsname"]=> string(28) "数据可视化|前端学习" ["tagsid"]=> string(9) "[396,397]" ["catesname"]=> string(18) "前端基本知识" ["catesid"]=> string(5) "[198]" ["createtime"]=> string(10) "1511397800" ["_id"]=> string(3) "422" } [7]=> array(10) { ["id"]=> string(3) "421" ["text"]=> string(36) "C#表达式目录树(Expression)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "wwym" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(4) ".NET" ["catesid"]=> string(7) "["119"]" ["createtime"]=> string(10) "1511397474" ["_id"]=> string(3) "421" } [8]=> array(10) { ["id"]=> string(3) "420" ["text"]=> string(47) "数据结构 队列_队列实例:事件处理" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "idreamo" ["tagsname"]=> string(40) "C语言|数据结构|队列|事件处理" ["tagsid"]=> string(23) "["246","247","248",395]" ["catesname"]=> string(12) "数据结构" ["catesid"]=> string(7) "["133"]" ["createtime"]=> string(10) "1511397279" ["_id"]=> string(3) "420" } [9]=> array(10) { ["id"]=> string(3) "419" ["text"]=> string(47) "久等了,博客园官方Android客户端发布" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(3) "cmt" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511396549" ["_id"]=> string(3) "419" } } ["count"]=> int(200) } 222 论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》 - 爱码网

核心思想

  本文提出一种基于最大熵图块采样算法的强化学习模型来解决小样本学习问题。作者首先提出常见的目标分类网络都是把一整张图片作为输入,进行特征提取,然后分类。而人类在观察事物的时候通常都会把注意力集中在部分感兴趣的区域,也就是所谓的注意力机制,而且当我们第二次看一个物体时,我们的注意力会沿着一定的轨迹移动,也就是说我们每次观察物体的一部分图块,经过多次观察后识别该物体。本文正是利用这一思想,将一幅图片分割成多个图块,组成一个图片序列,依次输入到一个强化学习网络中,经过多次观察后给出分类结果。网络的结构如下图所示
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
  每个图块pip_i都先经过一个图像特征提取网络fef_e得到对应的特征向量eie_i,然后与上一阶段的状态输出si1s_{i-1}和环境信息ci1c_{i-1}一起进入状态编码器fsf_s,得到当前时刻对应的状态输出sis_i。这一状态有两个用途,一方面作为输入传递到下一时刻的状态编码器,另一方面输入到最大熵图块采样器(Maximum Entropy Sampler)提取下一个阶段的图块pi+1p_{i+1}。简单点说,这个最大熵图块采样器就是以原图xx和当前时刻的状态信息sis_i作为输入,输出下一时刻的动作信息aia_i(也就是图块的坐标)。但具体来说,最大熵图块采样器由两个部分组成:Q函数fQf_Q和采样策略πθ\pi_{\theta},其中fQf_Q用来评价当前采取动作有多么“好”,而πθ\pi_{\theta}会输出下一时刻动作信息aia_i和原图xx对应的特征信息gg,而这两部分信息又进入动作环境编码器faf_{a}用于输出当前时刻的环境信息cic_i。最后经过NN次观察之后,输出状态sNs_N并利用分类器fcf_c得到最终的预测类别标签y^\hat{y}。整个过程看似复杂,但其实还是比较常规的强化学习流程,问题的难点在于最大熵图块采样器是如何选择出最合适的图块的?
  作者提出了一种基于最大熵的强化学习算法用于输出采样策略,该算法的优化目标如下
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
不仅要求最大化回报函数rtr_t,并且在给定状态ss的同时最大化策略的熵H(π(s))H(\pi(\cdot|s)),该问题可采用柔性Q学习的方法来解决
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
式中Qsoft(st,at)Q_{soft}(s_t,a_t)表示Q函数,VsoftV_{soft}表示价值函数,用于评定状态的价值,而最大熵策略如下
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
  基于上述的研究,本文提出一种正负样本采样的策略,所谓正样本就是指在感兴趣区域内的图块,而负样本是指背景处的图块。相应的负样本采样策略标识如下
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
可以看做是正样本采样策略的相反数。每次正向过程(处理一张图片)都会随机选择是采用正样本采样策略还是负样本采样策略,如果是正样本采样策率则希望分类器输出的预测结果是对应的目标物体,如果是负样本采样策略则希望分类器输出的预测结果是背景,根据这一要求设计了回报函数
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
  作者指出采用这一采样策略有双重优势:第一,编码器能够“看到”并学习为错误选择的图块进行编码;第二,这有助于为不同的动作提供不同价值,避免了无论采用何种动作其价值得分都几乎相同的情况。

实现过程

网络结构

  图像特征提取器fef_e是一个CNN网络,状态编码器fsf_s是一个RNN网络,Q函数fQf_Q和采样策略πθ\pi_{\theta}的结构完全相同,都是一个带有全连接层的小型CNN,动作环境编码器faf_a和分类器fcf_c结构未介绍。

损失函数

  分类损失根据采取不同的采样策略,计算正负样本对应的损失
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》
M1M_1M2M_2分别表示两种采样模式,jj表示第jj幅图片。图像特征提取器fef_e,状态编码器fsf_s,动作环境编码器faf_a和分类器fcf_c利用该损失进行更新。

训练策略

  整个网络的训练过程如下
论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》

创新点

  • 通过将图片分割成图块序列,采用深度强化学习的方式,实现小样本分类任务
  • 设计了最大熵图块采样策略

算法评价

  本文采用深度强化学习的方式实现小样本分类任务,在本质上可以看做是一种基于数据增强的方法,只不过作者是将一幅图片分割成若干个图块,并组成图块序列进行学习。这一方法能够引导网络有针对性的选取图片中有价值的部分进行观察,而不需要在背景区域浪费精力,这在一定程度上提高了模型的学习效率,使得其在少量样本的情况下就能够有效学习分类方法。根据实验结果来看,该算法效果改进不大,但作为一种全新的思路和结构,该算法仍具有进一步研究和改进的价值。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。论文阅读笔记《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification》

相关文章: