array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs - 爱码网</title>
     
<meta name="keywords" content="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-203826949.html" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs">【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2021-12-29">2021-12-29</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFeU5TOWxOVFpsTWpReVlUZGtaVGhrWm1VMk9XUmpPREEzTkdZM1pqSmxZVGhpWkM1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>论文题目：Multimodal Fusion with Recurrent Neural Networks for Rumor Detection on Microblogs</p>
<p>论文来源：MM 2017</p>
<p>论文链接：<a href="https://doi.org/10.1145/3123266.3123454" rel="nofollow" target="_blank">https://doi.org/10.1145/3123266.3123454</a></p>
<p>关键词：多模态融合，谣言检测，LSTM，注意力机制，microblog</p>
<hr>
<p></p>
<div class="toc">
<h3>文章目录</h3>
<ul>
<li><a href="#1__16" rel="nofollow" target="_blank">1 摘要</a></li>
<li><a href="#2__28" rel="nofollow" target="_blank">2 引言</a></li>
<li><a href="#3__51" rel="nofollow" target="_blank">3 模型</a></li>
<ul>
<li><a href="#31__53" rel="nofollow" target="_blank">3.1 模型概览</a></li>
<li><a href="#32__69" rel="nofollow" target="_blank">3.2 文本和社交上下文的联合表示</a></li>
<li><a href="#33__87" rel="nofollow" target="_blank">3.3 图像的视觉表示</a></li>
<li><a href="#34__104" rel="nofollow" target="_blank">3.4 用于视觉表示的注意力</a></li>
<li><a href="#35__124" rel="nofollow" target="_blank">3.5 模型的训练</a></li>
</ul>
<li><a href="#4__138" rel="nofollow" target="_blank">4 实验</a></li>
<li><a href="#5__151" rel="nofollow" target="_blank">5 总结</a></li>
<li><a href="#References_161" rel="nofollow" target="_blank">References</a></li>
</ul>
</div>
<p></p>
<hr>
<h2>
<a id="1__16" target="_blank" rel="nofollow"></a>1 摘要</h2>
<p>本文解决的是谣言检测问题。提出使用注意力机制的RNN（att-RNN）融合多模态的特征：图像特征、文本特征、社交上下文特征，以用于谣言检测。</p>
<p>是第一个使用深度神经网络将社交网络上的多模态内容整合，以解决假新闻检测问题的工作。</p>
<p>具体来说，使用LSTM得到文本和社交上下文的联合特征，然后将图像特征与其合并。当融合视觉特征时，运用到了LSTM输出的neural attention。</p>
<p>在两个多模态谣言数据集（Weibo, Twitter）上进行实验，结果表明att-RNN利用多模态数据进行谣言检测的有效性。</p>
<br><h2>
<a id="2__28" target="_blank" rel="nofollow"></a>2 引言</h2>
<p><strong>（1）现有方法的不足</strong></p>
<p>现有方法大多采用hand-crafted特征，不能学习到复杂并且可扩展的文本或视觉特征。<br>
On one hand, hand-crafted features in existing works are limited to learn complicated and scalable textual or visual features.</p>
<p>现有的多模态的方法是通过特征拼接或者取平均，实现特征的融合。这类融合方法太过简单，不能有效地结合不同模态的优势。<br>
On the other hand, existing fusing methods are quite preliminary which could fail to e ectively combine the benefits from di erent modalities</p>
<p><strong>（2）本文提出</strong></p>
<p>考虑到上述的局限性，本文的动机在于利用多模态的内容，提出端到端的带有注意力机制的RNN，融合来自于文本、图像和社交上下文的特征，以完成谣言检测任务。</p>
<p>与传统的人工特征不同，本文采用的文本、视觉和社交上下文特征是使用深层神经网络得到的。</p>
<p>如<strong>图 2</strong>所示，作者使用RNN学习到文本和社交上下文的联合表示。使用预训练的深层CNN学习到图像的视觉特征。接着使用注意力机制捕获到视觉特征和文本/社交联合特征间的关联，将两者融合。<br>
This network fuses features from three modalities and utilizes the attention mechanism for feature alignment.</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpRdk1qZ3dOMkUyTkRWak5EWm1Oall3T1dJMVpUaG1Zak13WXpKa05UTXhZelF1Y0c1bg==" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<br><h2>
<a id="3__51" target="_blank" rel="nofollow"></a>3 模型</h2>
<h3>
<a id="31__53" target="_blank" rel="nofollow"></a>3.1 模型概览</h3>
<p>将一个推文实例定义成三元组<span><span><span><math><semantics><mrow><mi>I</mi><mo>=</mo><mrow><mo stretchy="false">{</mo><mi>T</mi><mo separator="true">,</mo><mi>S</mi><mo separator="true">,</mo><mi>V</mi></mrow><mo stretchy="false">}</mo></mrow><annotation encoding="application/x-tex">I={\{T,S,V}\}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07847em;">I</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span>{</span><span style="margin-right: 0.13889em;">T</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.05764em;">S</span><span>,</span><span style="margin-right: 0.166667em;"></span><span style="margin-right: 0.22222em;">V</span></span><span>}</span></span></span></span></span>，其中<span><span><span><math><semantics><mrow><mi>T</mi></mrow><annotation encoding="application/x-tex">T</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.13889em;">T</span></span></span></span></span>表示文本内容，<span><span><span><math><semantics><mrow><mi>S</mi></mrow><annotation encoding="application/x-tex">S</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.05764em;">S</span></span></span></span></span>表示社交上下文，<span><span><span><math><semantics><mrow><mi>V</mi></mrow><annotation encoding="application/x-tex">V</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.22222em;">V</span></span></span></span></span>表示视觉内容。本文提出的模型从这三种模态中获得特征<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>T</mi></msub><mo separator="true">,</mo><msub><mi>R</mi><mi>S</mi></msub><mo separator="true">,</mo><msub><mi>R</mi><mi>V</mi></msub></mrow><annotation encoding="application/x-tex">R_T, R_S, R_V</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.87777em; vertical-align: -0.19444em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05764em;">S</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，然后整合成<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>I</mi></msub></mrow><annotation encoding="application/x-tex">R_I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07847em;">I</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，作为推文<span><span><span><math><semantics><mrow><mi>I</mi></mrow><annotation encoding="application/x-tex">I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.07847em;">I</span></span></span></span></span>的表示。</p>
<p>首先，使用RN将文本和社交上下文特征混合生成联合表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mrow><mi>T</mi><mi>S</mi></mrow></msub></mrow><annotation encoding="application/x-tex">R_{TS}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，使用CNN得到视觉特征<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>V</mi></msub></mrow><annotation encoding="application/x-tex">R_V</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>。然后，在RNN每一个时间步输出都使用注意力进一步微调<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>V</mi></msub></mrow><annotation encoding="application/x-tex">R_V</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>。在最后一步，将<span><span><span><math><semantics><mrow><msub><mi>R</mi><mrow><mi>T</mi><mi>S</mi></mrow></msub></mrow><annotation encoding="application/x-tex">R_{TS}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>和注意力聚合的<span><span><span><math><semantics><mrow><msubsup><mi>R</mi><mi>V</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msubsup></mrow><annotation encoding="application/x-tex">R_{V}^{'}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.21781em; vertical-align: -0.275331em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.94248em;"><span style="top: -2.42467em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.827829em;"><span style="top: -2.931em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.275331em;"><span></span></span></span></span></span></span></span></span></span></span>拼接，作为最终的多模态表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>I</mi></msub></mrow><annotation encoding="application/x-tex">R_I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07847em;">I</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>。然后使用这一表示进行二元分类，判断推文的真假。</p>
<p>att-RNN模型的整体结构如<strong>图 2</strong>所示，有三个主要部分组成：</p>
<p><strong>1）RNN sub-netowrk</strong>：学习文本特征和社交上下文特征的联合表示；</p>
<p><strong>2）visual sub-network</strong>：生成视觉表示；</p>
<p><strong>3）the neural-level attention part</strong>：使用RNN的输出来对齐视觉特征。</p>
<br><h3>
<a id="32__69" target="_blank" rel="nofollow"></a>3.2 文本和社交上下文的联合表示</h3>
<p>使用LSTM学习到文本和社交上下文的联合表示。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpZMU5TODFNVE5sT1RCa01qUTFZelZqTmpZd1lqQTFNRGc0WlRReVptVXpNakZpWmk1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>文本内容是单词序列：<span><span><span><math><semantics><mrow><mi>T</mi><mo>=</mo><mrow><mo stretchy="false">{</mo><msub><mi>T</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>T</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>T</mi><mi>n</mi></msub></mrow><mo stretchy="false">}</mo></mrow><annotation encoding="application/x-tex">T={\{T_1, T_2, ..., T_n}\}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span>{</span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>n</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span><span>}</span></span></span></span></span>，<span><span><span><math><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>n</span></span></span></span></span>表示单词个数。文本中的每个单词<span><span><span><math><semantics><mrow><msub><mi>T</mi><mi>i</mi></msub><mo>∈</mo><mi>T</mi></mrow><annotation encoding="application/x-tex">T_i\in T</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>∈</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.13889em;">T</span></span></span></span></span>都表示为一个词嵌入向量。词嵌入是在给定数据集上进行无监督预训练得到的。</p>
<p>社交上下文指的是hash-tag topic, mention, retweets, 文本语义特征 例如情感极性。使用这些上下文形成社交上下文的初始表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>S</mi></msub><mo>=</mo><mo stretchy="false">[</mo><msub><mi>s</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>s</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>s</mi><mi>k</mi></msub><msup><mo stretchy="false">]</mo><mi>T</mi></msup></mrow><annotation encoding="application/x-tex">R_S=[s_1, s_2, ..., s_k]^T</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05764em;">S</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.09133em; vertical-align: -0.25em;"></span><span>[</span><span><span>s</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>s</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>s</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.03148em;">k</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>]</span><span><span><span><span style="height: 0.841331em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span></span></span></span></span></span></span></span></span>，<span><span><span><math><semantics><mrow><mi>k</mi></mrow><annotation encoding="application/x-tex">k</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span style="margin-right: 0.03148em;">k</span></span></span></span></span>是社交上下文特征的维度，<span><span><span><math><semantics><mrow><msub><mi>s</mi><mi>i</mi></msub></mrow><annotation encoding="application/x-tex">s_i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.58056em; vertical-align: -0.15em;"></span><span><span>s</span><span><span><span><span style="height: 0.311664em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>是第<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>维的值。</p>
<p>通过一个全连接层（<strong>图 3</strong>中的soc-fc）将<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>S</mi></msub></mrow><annotation encoding="application/x-tex">R_S</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.05764em;">S</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>转换为和词嵌入向量维度相同的<span><span><span><math><semantics><mrow><msub><mi>R</mi><msup><mi>S</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></msub></mrow><annotation encoding="application/x-tex">R_{S^{'}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.96351em; vertical-align: -0.28018em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.05764em;">S</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span></span></span></span></span>：</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpjMU55OHlaVGc0TldZMU1ESTJOVFUyTVRNek56TmtNV0l5TUdSak1ESmpPV00wWkM1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>在每个时间步，LSTM将<span><span><span><math><semantics><mrow><msub><mi>R</mi><mrow><msub><mi>T</mi><mi>i</mi></msub><mi>S</mi></mrow></msub><mo>=</mo><mo stretchy="false">[</mo><msub><mi>R</mi><msub><mi>T</mi><mi>i</mi></msub></msub><mo separator="true">;</mo><msub><mi>R</mi><msup><mi>S</mi><msup><mrow></mrow><mrow><mo mathvariant="normal">′</mo><mo mathvariant="normal">′</mo></mrow></msup></msup></msub><mo stretchy="false">]</mo></mrow><annotation encoding="application/x-tex">R_{T_iS}=[R_{T_i};R_{S^{''}}]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.93343em; vertical-align: -0.2501em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: -0.13889em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.2501em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.03018em; vertical-align: -0.28018em;"></span><span>[</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: -0.13889em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.2501em;"><span></span></span></span></span></span></span><span>;</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.05764em;">S</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span><span>]</span></span></span></span></span>作为输入，即第<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>个单词的嵌入<span><span><span><math><semantics><mrow><msub><mi>R</mi><msub><mi>T</mi><mi>i</mi></msub></msub></mrow><annotation encoding="application/x-tex">R_{T_i}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.93343em; vertical-align: -0.2501em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.13889em;">T</span><span><span><span><span style="height: 0.328086em;"><span style="top: -2.357em; margin-left: -0.13889em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>i</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.2501em;"><span></span></span></span></span></span></span></span></span></span></span>和转换后的社交上下文特征<span><span><span><math><semantics><mrow><msub><mi>R</mi><msup><mi>S</mi><msup><mrow></mrow><mrow><mo mathvariant="normal">′</mo><mo mathvariant="normal">′</mo></mrow></msup></msup></msub></mrow><annotation encoding="application/x-tex">R_{S^{''}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.96351em; vertical-align: -0.28018em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.05764em;">S</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span></span></span></span></span>的拼接。对LSTM输出的每个单词的表示取平均，就得到文本和社交上下文的联合表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mrow><mi>T</mi><mi>S</mi></mrow></msub></mrow><annotation encoding="application/x-tex">R_{TS}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>。整个过程如<strong>图 3</strong>所示。</p>
<br><h3>
<a id="33__87" target="_blank" rel="nofollow"></a>3.3 图像的视觉表示</h3>
<p>visual sub-network将推文图像作为输入并生成视觉神经元（visual neurons）作为图像的特征。如<strong>图 2</strong>所示，前面一层和VGG-19有着同样的结构，然后作者在此之后添加了两个512-neuron全连接层（vis-fc1, vis-fc2），以为每个图像生成512-neuron视觉表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>V</mi></msub><mo>=</mo><mo stretchy="false">[</mo><msub><mi>v</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>v</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>v</mi><mn>512</mn></msub><msup><mo stretchy="false">]</mo><mi>T</mi></msup></mrow><annotation encoding="application/x-tex">R_V=[v_1, v_2, ..., v_{512}]^T</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.09133em; vertical-align: -0.25em;"></span><span>[</span><span><span style="margin-right: 0.03588em;">v</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">v</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.03588em;">v</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>5</span><span>1</span><span>2</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span><span>]</span><span><span><span><span style="height: 0.841331em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.13889em;">T</span></span></span></span></span></span></span></span></span></span></span></span>。</p>
<p>visual sub-network可以先用辅助数据集进行微调，在和LSTM sub-netowrk联合训练时，只需要更新最后两个全连接层的参数。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpFeUwyUXpaVFkyTmpreFpERXpOR1UxWmpWaFpqQmxaalk1Tm1Gak5USm1ZbVkwTG5CdVp3PT0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>其中，<span><span><span><math><semantics><mrow><msub><mi>R</mi><msub><mi>V</mi><mi>p</mi></msub></msub></mrow><annotation encoding="application/x-tex">R_{V_p}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1.03065em; vertical-align: -0.34732em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.22222em;">V</span><span><span><span><span style="height: 0.164543em;"><span style="top: -2.357em; margin-left: -0.22222em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>p</span></span></span></span><span>​</span></span><span><span style="height: 0.281886em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.34732em;"><span></span></span></span></span></span></span></span></span></span></span>是从预训练的VGG网络中得到的视觉特征，<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>v</mi><msub><mi>f</mi><mn>1</mn></msub></mrow></msub></mrow><annotation encoding="application/x-tex">W_{vf_1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03588em;">v</span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.317314em;"><span style="top: -2.357em; margin-left: -0.10764em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>第一层带有ReLU**函数的全连接层的权重，<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>v</mi><msub><mi>f</mi><mn>2</mn></msub></mrow></msub></mrow><annotation encoding="application/x-tex">W_{vf_2}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.03588em;">v</span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.317314em;"><span style="top: -2.357em; margin-left: -0.10764em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>是第二层带有softmax函数的权重，<span><span><span><math><semantics><mrow><mi>ψ</mi></mrow><annotation encoding="application/x-tex">\psi</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">ψ</span></span></span></span></span>表示ReLU**函数。</p>
<p>在模型中直接利用视觉和联合的社交-文本表示面临着一个挑战：一个表现可能会压倒另一个，从而导致最终的表示对这一模态有明显的倾向性。<br>
One big challenge of directly utilizing the visual and joint social-textual representation in the model is that one representation will probably overwhelm the other, which results in the biased performance towards this modality.</p>
<p>为了最大化多模态特征的优势，需要共同学习不同模态下的对齐方法。在接下来的部分中，作者引入注意力机制，根据RNN在每个时间步的输出调整视觉表示，同时生成聚合的visual neurons。</p>
<br><h3>
<a id="34__104" target="_blank" rel="nofollow"></a>3.4 用于视觉表示的注意力</h3>
<p>作者假定谣言推文中的图像和文本/社交上下文具有一定的关联性。为了描述这些关联，作者以文本和社交上下文的联合表示的neuron为指导，提出了用于视觉特征的neuron-level注意力机制。</p>
<p>作者假定文本内容中的单词可能和图像中的一些语义概念有关联，作者的目的是自动地找到这些关联。具体来说，和单词有相似语义的visual neurons应该被赋予更多的权重。</p>
<p>作者提出的visual-neuron注意力机制对不同neurons对不同单词的贡献进行了加权。为了实现这一目标，利用LSTM在每个时间步输出的隐层状态<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>m</mi></msub></mrow><annotation encoding="application/x-tex">h_m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>作为指导。将<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>m</mi></msub></mrow><annotation encoding="application/x-tex">h_m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>和带有ReLU**函数的全连接层相连，再和带有softmax函数的全连接层相连，以得到注意力向量<span><span><span><math><semantics><mrow><msub><mi>A</mi><mi>m</mi></msub><mo>∈</mo><msup><mi mathvariant="double-struck">R</mi><mn>512</mn></msup></mrow><annotation encoding="application/x-tex">A_m \in \mathbb{R}^{512}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span>A</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>∈</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 0.814108em; vertical-align: 0em;"></span><span><span><span>R</span></span><span><span><span><span style="height: 0.814108em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>5</span><span>1</span><span>2</span></span></span></span></span></span></span></span></span></span></span></span></span>，该向量和visual neurons <span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>V</mi></msub></mrow><annotation encoding="application/x-tex">R_V</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.22222em;">V</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>的维度一致。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprd09TOHhOR0ZrTlRKbVkyRTNOR016TkRoaE1Ua3pOMlE1TW1Fd1lUaG1ZalpoTlM1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>其中<span><span><span><math><semantics><mrow><msub><mi>h</mi><mi>m</mi></msub></mrow><annotation encoding="application/x-tex">h_m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.84444em; vertical-align: -0.15em;"></span><span><span>h</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>是LSTM在第<span><span><span><math><semantics><mrow><mi>m</mi></mrow><annotation encoding="application/x-tex">m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>m</span></span></span></span></span>个时间步的隐层状态，<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>a</mi><msub><mi>f</mi><mn>1</mn></msub></mrow></msub></mrow><annotation encoding="application/x-tex">W_{af_1}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>a</span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.317314em;"><span style="top: -2.357em; margin-left: -0.10764em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>和<span><span><span><math><semantics><mrow><msub><mi>W</mi><mrow><mi>a</mi><msub><mi>f</mi><mn>2</mn></msub></mrow></msub></mrow><annotation encoding="application/x-tex">W_{af_2}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.969438em; vertical-align: -0.286108em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.336108em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span>a</span><span><span style="margin-right: 0.10764em;">f</span><span><span><span><span style="height: 0.317314em;"><span style="top: -2.357em; margin-left: -0.10764em; margin-right: 0.0714286em;"><span style="height: 2.5em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.143em;"><span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.286108em;"><span></span></span></span></span></span></span></span></span></span></span>是两个全连接层的权重，<span><span><span><math><semantics><mrow><mi>ψ</mi></mrow><annotation encoding="application/x-tex">\psi</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.88888em; vertical-align: -0.19444em;"></span><span style="margin-right: 0.03588em;">ψ</span></span></span></span></span>是ReLU**函数。文本中第<span><span><span><math><semantics><mrow><mi>m</mi></mrow><annotation encoding="application/x-tex">m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>m</span></span></span></span></span>个单词和图像间的关联计算如下。其中，<span><span><span><math><semantics><mrow><msub><mi>A</mi><mi>m</mi></msub><mo stretchy="false">(</mo><mi>i</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">A_m(i)</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 1em; vertical-align: -0.25em;"></span><span><span>A</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>(</span><span>i</span><span>)</span></span></span></span></span>是第<span><span><span><math><semantics><mrow><mi>i</mi></mrow><annotation encoding="application/x-tex">i</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.65952em; vertical-align: 0em;"></span><span>i</span></span></span></span></span>个visual neuron的注意力值。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpreE5TOWpaVEZqWkRoaE5qTmhZVFF3TnpJME1EWmhObVkwTXpnNE5ERXhORFpqWWk1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>通过LSTM生成的注意力向量<span><span><span><math><semantics><mrow><msub><mi>A</mi><mi>m</mi></msub></mrow><annotation encoding="application/x-tex">A_m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span>A</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>决定了那些visual neurons更重要。最终的视觉表示是一组映射值：<span><span><span><math><semantics><mrow><msub><mi>R</mi><msup><mi>V</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></msub><mo>=</mo><mo stretchy="false">[</mo><msub><mi>a</mi><mn>1</mn></msub><mo separator="true">,</mo><msub><mi>a</mi><mn>2</mn></msub><mo separator="true">,</mo><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mi mathvariant="normal">.</mi><mo separator="true">,</mo><msub><mi>a</mi><mi>n</mi></msub><mo stretchy="false">]</mo></mrow><annotation encoding="application/x-tex">R_{V^{'}}=[a_1, a_2, ..., a_n]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.96351em; vertical-align: -0.28018em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.22222em;">V</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1em; vertical-align: -0.25em;"></span><span>[</span><span><span>a</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>1</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>a</span><span><span><span><span style="height: 0.301108em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>2</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>,</span><span style="margin-right: 0.166667em;"></span><span>.</span><span>.</span><span>.</span><span>,</span><span style="margin-right: 0.166667em;"></span><span><span>a</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>n</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>]</span></span></span></span></span>，<span><span><span><math><semantics><mrow><mi>n</mi></mrow><annotation encoding="application/x-tex">n</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>n</span></span></span></span></span>是给定文本的单词数量。</p>
<p>需要指出的是，与传统的视觉识别任务相比，谣言检测任务中的高级视觉语义很难识别。注意模型中没有明确保证这种匹配关系学习的机制。但作者仍然假设，使用这样的注意力机制进行训练可以发掘一些隐式的关联，并且改善特征对齐。</p>
<br><h3>
<a id="35__124" target="_blank" rel="nofollow"></a>3.5 模型的训练</h3>
<p>目前为止，我们得到了文本和社交上下文的联合表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mrow><mi>T</mi><mi>S</mi></mrow></msub></mrow><annotation encoding="application/x-tex">R_{TS}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>，以及一个attention-aggregated视觉表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><msup><mi>V</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></msub></mrow><annotation encoding="application/x-tex">R_{V^{'}}</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.96351em; vertical-align: -0.28018em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.22222em;">V</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span></span></span></span></span>。将这两个特征进行拼接，就得到了给定推文的多模态表示<span><span><span><math><semantics><mrow><msub><mi>R</mi><mi>I</mi></msub><mo>=</mo><mo stretchy="false">[</mo><msub><mi>R</mi><mrow><mi>T</mi><mi>S</mi></mrow></msub><mo separator="true">;</mo><msub><mi>R</mi><msup><mi>V</mi><msup><mrow></mrow><mo mathvariant="normal">′</mo></msup></msup></msub><mo stretchy="false">]</mo></mrow><annotation encoding="application/x-tex">R_I = [R_{TS}; R_{V^{'}}]</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07847em;">I</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span style="margin-right: 0.277778em;"></span><span>=</span><span style="margin-right: 0.277778em;"></span></span><span><span style="height: 1.03018em; vertical-align: -0.28018em;"></span><span>[</span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.328331em;"><span style="top: -2.55em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span style="margin-right: 0.13889em;">T</span><span style="margin-right: 0.05764em;">S</span></span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span><span>;</span><span style="margin-right: 0.166667em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.3448em;"><span style="top: -2.41982em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span><span><span style="margin-right: 0.22222em;">V</span><span><span><span><span style="height: 0.892829em;"><span style="top: -2.89283em; margin-right: 0.0714286em;"><span style="height: 2.60683em;"></span><span><span><span><span></span><span><span><span><span style="height: 0.84956em;"><span style="top: -2.84956em; margin-right: 0.1em;"><span style="height: 2.55556em;"></span><span><span>′</span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span></span><span>​</span></span><span><span style="height: 0.28018em;"><span></span></span></span></span></span></span><span>]</span></span></span></span></span>。使用交叉熵定义第<span><span><span><math><semantics><mrow><mi>m</mi></mrow><annotation encoding="application/x-tex">m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>m</span></span></span></span></span>个推文的损失：</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprek9TOHlOamswWXpGak1EZGhZakU1TVRBeFkyTXlZelprWXpNeE1EVXhZekkwWWk1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p>其中<span><span><span><math><semantics><mrow><msubsup><mi>R</mi><mi>I</mi><mi>m</mi></msubsup></mrow><annotation encoding="application/x-tex">R^m_I</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.958661em; vertical-align: -0.275331em;"></span><span><span style="margin-right: 0.00773em;">R</span><span><span><span><span style="height: 0.664392em;"><span style="top: -2.42467em; margin-left: -0.00773em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span style="margin-right: 0.07847em;">I</span></span></span><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span><span>​</span></span><span><span style="height: 0.275331em;"><span></span></span></span></span></span></span></span></span></span></span>是第<span><span><span><math><semantics><mrow><mi>m</mi></mrow><annotation encoding="application/x-tex">m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>m</span></span></span></span></span>个推文实例的多模态表示；<span><span><span><math><semantics><mrow><msub><mi>W</mi><mi>s</mi></msub></mrow><annotation encoding="application/x-tex">W_s</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.83333em; vertical-align: -0.15em;"></span><span><span style="margin-right: 0.13889em;">W</span><span><span><span><span style="height: 0.151392em;"><span style="top: -2.55em; margin-left: -0.13889em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>s</span></span></span></span><span>​</span></span><span><span style="height: 0.15em;"><span></span></span></span></span></span></span></span></span></span></span>是线性模型softmax层的参数；<span><span><span><math><semantics><mrow><msup><mi>l</mi><mi>m</mi></msup></mrow><annotation encoding="application/x-tex">l^m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.69444em; vertical-align: 0em;"></span><span><span style="margin-right: 0.01968em;">l</span><span><span><span><span style="height: 0.664392em;"><span style="top: -3.063em; margin-right: 0.05em;"><span style="height: 2.7em;"></span><span><span>m</span></span></span></span></span></span></span></span></span></span></span></span>是第<span><span><span><math><semantics><mrow><mi>m</mi></mrow><annotation encoding="application/x-tex">m</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.43056em; vertical-align: 0em;"></span><span>m</span></span></span></span></span>个推文的ground turth label，1表示不是谣言，0表示是谣言。</p>
<p>整个att-RNN模型使用batched SGD进行端到端的训练以最小化如下的损失函数，其中<span><span><span><math><semantics><mrow><mi>N</mi></mrow><annotation encoding="application/x-tex">N</annotation></semantics></math></span><span aria-hidden="true"><span><span style="height: 0.68333em; vertical-align: 0em;"></span><span style="margin-right: 0.10903em;">N</span></span></span></span></span>表示推文实例总数。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVek5pOHdZVFJrWlRaa1ptVmlPR1EyTmpObVpUQmhOekl4Wmpjd01EVmxZV1U0T0M1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<br><h2>
<a id="4__138" target="_blank" rel="nofollow"></a>4 实验</h2>
<p><strong>（1）数据集</strong></p>
<p>作者在[1]的基础上，构建了Weibo数据集和Twitter数据集。</p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJdllUVXhPR0ZoTm1FM01XSTNNbUpsTXpRMllUSXhZV0psWlRkaE9UZ3lNMkV1Y0c1bg==" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<p><strong>（2）实验结果</strong></p>
<div align="center"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNNE9TOHhOVGt4TkRjMk5UVm1OVGhqTmpaallqaGpNR1ppWTJJMllUSmlZMlppTlM1d2JtYz0=" alt="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs" title="【论文解读 MM 2017 | att-RNN】Multimodal Fusion with RNNs for Rumor Detection on Microblogs"></div>
<br><h2>
<a id="5__151" target="_blank" rel="nofollow"></a>5 总结</h2>
<p>本文提出使用带有注意力机制的RNN（att-RNN），融合文本、图像和社交上下文特征，以实现谣言检测任务。</p>
<p>对于给定的推文，首先使用LSTM融合其文本和社交上下文。然后再将这一联合表示与从预训练的深层CNN中得到的视觉特征进行融合。在融合过程中，利用LSTM在每个时间步的输出作为neuron-level注意力，以调节视觉特征。</p>
<p>在Weibo和Twitter两个数据集上进行了实验，和已有的基于特征的方法以及基于神经网络的多模态融合的方法相比，可以有效地基于多媒体内容实现谣言的检测。</p>
<br><h2>
<a id="References_161" target="_blank" rel="nofollow"></a>References</h2>
<p>[1]	Christina Boididou, Katerina Andreadou, Symeon Papadopoulos, Duc-Tien Dang-Nguyen, Giulia Boato, Michael Riegler, and Yiannis Kompatsiaris. 2015. Verifying Multimedia Use at MediaEval 2015. In MediaEval 2015 Workshop, Sept. 14-15, 2015, Wurzen, Germany.</p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>