array(2) { ["docs"]=> array(10) { [0]=> array(10) { ["id"]=> string(3) "428" ["text"]=> string(77) "Visual Studio 2017 单独启动MSDN帮助(Microsoft Help Viewer)的方法" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(8) "DonetRen" ["tagsname"]=> string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer" ["tagsid"]=> string(23) "[401,402,403,"300",404]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400964" ["_id"]=> string(3) "428" } [1]=> array(10) { ["id"]=> string(3) "427" ["text"]=> string(42) "npm -v;报错 cannot find module "wrapp"" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "zzty" ["tagsname"]=> string(50) "node.js|npm|cannot find module "wrapp“|node" ["tagsid"]=> string(19) "[398,"239",399,400]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400760" ["_id"]=> string(3) "427" } [2]=> array(10) { ["id"]=> string(3) "426" ["text"]=> string(54) "说说css中pt、px、em、rem都扮演了什么角色" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(12) "zhengqiaoyin" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511400640" ["_id"]=> string(3) "426" } [3]=> array(10) { ["id"]=> string(3) "425" ["text"]=> string(83) "深入学习JS执行--创建执行上下文(变量对象,作用域链,this)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "Ry-yuan" ["tagsname"]=> string(33) "Javascript|Javascript执行过程" ["tagsid"]=> string(13) "["169","191"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511399901" ["_id"]=> string(3) "425" } [4]=> array(10) { ["id"]=> string(3) "424" ["text"]=> string(30) "C# 排序技术研究与对比" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "vveiliang" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(8) ".Net Dev" ["catesid"]=> string(5) "[199]" ["createtime"]=> string(10) "1511399150" ["_id"]=> string(3) "424" } [5]=> array(10) { ["id"]=> string(3) "423" ["text"]=> string(72) "【算法】小白的算法笔记:快速排序算法的编码和优化" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(9) "penghuwan" ["tagsname"]=> string(6) "算法" ["tagsid"]=> string(7) "["344"]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511398109" ["_id"]=> string(3) "423" } [6]=> array(10) { ["id"]=> string(3) "422" ["text"]=> string(64) "JavaScript数据可视化编程学习(二)Flotr2,雷达图" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "chengxs" ["tagsname"]=> string(28) "数据可视化|前端学习" ["tagsid"]=> string(9) "[396,397]" ["catesname"]=> string(18) "前端基本知识" ["catesid"]=> string(5) "[198]" ["createtime"]=> string(10) "1511397800" ["_id"]=> string(3) "422" } [7]=> array(10) { ["id"]=> string(3) "421" ["text"]=> string(36) "C#表达式目录树(Expression)" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(4) "wwym" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(4) ".NET" ["catesid"]=> string(7) "["119"]" ["createtime"]=> string(10) "1511397474" ["_id"]=> string(3) "421" } [8]=> array(10) { ["id"]=> string(3) "420" ["text"]=> string(47) "数据结构 队列_队列实例:事件处理" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(7) "idreamo" ["tagsname"]=> string(40) "C语言|数据结构|队列|事件处理" ["tagsid"]=> string(23) "["246","247","248",395]" ["catesname"]=> string(12) "数据结构" ["catesid"]=> string(7) "["133"]" ["createtime"]=> string(10) "1511397279" ["_id"]=> string(3) "420" } [9]=> array(10) { ["id"]=> string(3) "419" ["text"]=> string(47) "久等了,博客园官方Android客户端发布" ["intro"]=> string(288) "目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ " ["username"]=> string(3) "cmt" ["tagsname"]=> string(0) "" ["tagsid"]=> string(2) "[]" ["catesname"]=> string(0) "" ["catesid"]=> string(2) "[]" ["createtime"]=> string(10) "1511396549" ["_id"]=> string(3) "419" } } ["count"]=> int(200) } 222 Transformer端侧模型压缩——Mobile Transformer - 爱码网

随着Transformer模型在NLP、ASR等序列建模中的普及应用,其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型,借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。

1. The Evolved Transformer

Paper Link: https://arxiv.org/abs/1901.11117

GitHub: https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

Google基于NAS搜索获得的Transformer结构:

  1. 搜索空间:包括两个stackable cell,分别包含在transformer encoder与transformer decoder。每个cell由NAS-style block组成, 可通过左右两个block转换输入Embedding、再聚合获得新的Embedding,进一步输入到self-attention layer。
  2. 搜索策略:基于EA (Evolutional Aligorithm)的搜索策略;

网络结构如下:

Transformer端侧模型压缩——Mobile Transformer

 

Transformer端侧模型压缩——Mobile Transformer

 

Transformer端侧模型压缩——Mobile Transformer

 

2. Lite Transformer with Long-Short Range Attention

Paper Link: https://arxiv.org/abs/2004.11886

GitHub: https://github.com/mit-han-lab/lite-transformer

Lite Transformer是韩松组研究提出的一种高效、面向移动端部署的Transformer架构,其核心是长短距离注意力结构(Long-Short Range Attention,LSRA)。LSRA将输入Embedding沿feature维度split成两部分,其中一部分通过GLU、一维卷积,用以提取局部context信息;而另一部分依靠self-attention,用以负责全局相关性信息编码。

Lite Transformer核心结构如下:

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

 

3. HAT: Hardware-Aware Transformers for Efficient Natural Language Processing

Paper Link: https://arxiv.org/abs/2005.14187

GitHub: https://github.com/mit-han-lab/hardware-aware-transformers

HAT是韩松组研究提出的one for all网络,sub-transformer通过共享super-transformer的网络参数,可实现不同部署平台与硬件设备的快速适配。设计核心包括arbitrary encoder-decoder attention、以及elastic网络结构 (hidden size、embed-size、layers等)。

One for all自动化部署流程、以及核心网络结构如下:

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

 

4. MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

Paper Link: https://arxiv.org/abs/2004.02984

Google Brain提出了MobileBERT,该模型是与任务无关的,即可以通过简单的微调、应用于各种下游NLP任务。基本上,MobileBERT是BERT_LARGE的精简版,同时配备了bottleneck结构和self-attention与ffn之间的平衡。为了训练MobileBERT,首先训练了一个特别设计的教师模型 (包含Inverted Attention Block),然后通过知识蒸馏诱导MobileBERT的训练。

具体的网络结构与蒸馏机制如下:

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

 

5. MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers

Paper Link: https://arxiv.org/abs/2002.10957

GitHub: https://github.com/microsoft/unilm/tree/master/minilm

微软研究院提出了基于 Transformer预训练模型的通用压缩方法:深度自注意力知识蒸馏(Deep Self-Attention Distillation),通过迁移teacher model最后一层self-attention layer的attention score信息与value relation信息,可有效实现student model的诱导训练。只迁移最后一层的知识,显得简单有效、且训练速度更快,而且不需要手动设计teacher-student之间的层对应关系。

Attention score信息与Value relation信息的知识迁移如下:

Attention score transfer:

Transformer端侧模型压缩——Mobile Transformer

Value relation transfer:

Transformer端侧模型压缩——Mobile Transformer

Transformer端侧模型压缩——Mobile Transformer

 

6. Miscellaneous

关于Separable Conv1d在序列模型中的应用、及优势,可参考:Depthwise Separable Convolutions for Neural Machine Translation;

移动端推理框架可参考:MNN、NCNN、Paddle-lite、Tengine、TNN、TF-lite等;

相关文章: