array(2) {
  ["docs"]=>
  array(10) {
    [0]=>
    array(10) {
      ["id"]=>
      string(3) "428"
      ["text"]=>
      string(77) "Visual Studio 2017 单独启动MSDN帮助（Microsoft Help Viewer）的方法"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(8) "DonetRen"
      ["tagsname"]=>
      string(55) "Visual Studio 2017|MSDN帮助|C#程序|.NET|Help Viewer"
      ["tagsid"]=>
      string(23) "[401,402,403,"300",404]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400964"
      ["_id"]=>
      string(3) "428"
    }
    [1]=>
    array(10) {
      ["id"]=>
      string(3) "427"
      ["text"]=>
      string(42) "npm -v；报错 cannot find module "wrapp""
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "zzty"
      ["tagsname"]=>
      string(50) "node.js|npm|cannot find module &quot;wrapp“|node"
      ["tagsid"]=>
      string(19) "[398,"239",399,400]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400760"
      ["_id"]=>
      string(3) "427"
    }
    [2]=>
    array(10) {
      ["id"]=>
      string(3) "426"
      ["text"]=>
      string(54) "说说css中pt、px、em、rem都扮演了什么角色"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(12) "zhengqiaoyin"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511400640"
      ["_id"]=>
      string(3) "426"
    }
    [3]=>
    array(10) {
      ["id"]=>
      string(3) "425"
      ["text"]=>
      string(83) "深入学习JS执行--创建执行上下文（变量对象，作用域链，this）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "Ry-yuan"
      ["tagsname"]=>
      string(33) "Javascript|Javascript执行过程"
      ["tagsid"]=>
      string(13) "["169","191"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511399901"
      ["_id"]=>
      string(3) "425"
    }
    [4]=>
    array(10) {
      ["id"]=>
      string(3) "424"
      ["text"]=>
      string(30) "C# 排序技术研究与对比"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "vveiliang"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(8) ".Net Dev"
      ["catesid"]=>
      string(5) "[199]"
      ["createtime"]=>
      string(10) "1511399150"
      ["_id"]=>
      string(3) "424"
    }
    [5]=>
    array(10) {
      ["id"]=>
      string(3) "423"
      ["text"]=>
      string(72) "【算法】小白的算法笔记：快速排序算法的编码和优化"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(9) "penghuwan"
      ["tagsname"]=>
      string(6) "算法"
      ["tagsid"]=>
      string(7) "["344"]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511398109"
      ["_id"]=>
      string(3) "423"
    }
    [6]=>
    array(10) {
      ["id"]=>
      string(3) "422"
      ["text"]=>
      string(64) "JavaScript数据可视化编程学习（二）Flotr2，雷达图"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "chengxs"
      ["tagsname"]=>
      string(28) "数据可视化|前端学习"
      ["tagsid"]=>
      string(9) "[396,397]"
      ["catesname"]=>
      string(18) "前端基本知识"
      ["catesid"]=>
      string(5) "[198]"
      ["createtime"]=>
      string(10) "1511397800"
      ["_id"]=>
      string(3) "422"
    }
    [7]=>
    array(10) {
      ["id"]=>
      string(3) "421"
      ["text"]=>
      string(36) "C#表达式目录树（Expression）"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(4) "wwym"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(4) ".NET"
      ["catesid"]=>
      string(7) "["119"]"
      ["createtime"]=>
      string(10) "1511397474"
      ["_id"]=>
      string(3) "421"
    }
    [8]=>
    array(10) {
      ["id"]=>
      string(3) "420"
      ["text"]=>
      string(47) "数据结构 队列_队列实例：事件处理"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(7) "idreamo"
      ["tagsname"]=>
      string(40) "C语言|数据结构|队列|事件处理"
      ["tagsid"]=>
      string(23) "["246","247","248",395]"
      ["catesname"]=>
      string(12) "数据结构"
      ["catesid"]=>
      string(7) "["133"]"
      ["createtime"]=>
      string(10) "1511397279"
      ["_id"]=>
      string(3) "420"
    }
    [9]=>
    array(10) {
      ["id"]=>
      string(3) "419"
      ["text"]=>
      string(47) "久等了,博客园官方Android客户端发布"
      ["intro"]=>
      string(288) "目录

ECharts
异步加载


ECharts
数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。
chart.setOption({
    color: [
        "
      ["username"]=>
      string(3) "cmt"
      ["tagsname"]=>
      string(0) ""
      ["tagsid"]=>
      string(2) "[]"
      ["catesname"]=>
      string(0) ""
      ["catesid"]=>
      string(2) "[]"
      ["createtime"]=>
      string(10) "1511396549"
      ["_id"]=>
      string(3) "419"
    }
  }
  ["count"]=>
  int(200)
}
222<!DOCTYPE html>
<html lang="zh-CN">
<head>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="zh-CN" />
<meta http-equiv="X-UA-Compatible" content="IE=edge" /> 
    <title>InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】- reduce - 爱码网</title>
     
<meta name="keywords" content="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" />
<meta name="description" content="目录ECharts异步加载ECharts数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具，而是在交互、性能、数据处理等方面有更高的要求。chart.setOption({    color: [" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<link rel="stylesheet" type="text/css" href="/statics/css/base.css?v=2.7" />
<script src="/statics/js/detail.min.js?v=2.2"></script>   
<script>
   $(document).ready(function () { 
		$("img").error(function () {
			$(this).hide();
		}); 
	}); 
</script>
</head>
<body class="home-template dtpg">
<nav class="main-nav clearfix">
    <div class="inner">
        <ul class="nav">
            <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/" title="爱码网">首页</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/1.html" title="前端技术">前端技术</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/9.html" title="编程语言">编程语言</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/31.html" title="人工智能">人工智能</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/41.html" title="运维知识">运维知识</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/52.html" title="资源下载">资源下载</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/68.html" title="常用小工具">常用小工具</a></li>
                        <li class="menu-item menu-item-type-custom menu-item-object-custom current-menu-item current_page_item menu-item-home menu-item-886"><a href="/nav/72.html" title="技术问答">技术问答</a></li>
                    </ul>            
	 
    </div>
</nav><div class="site-wrapper">
 
    <header style="height: auto;padding: 10px 0px;" class="main-header">
        <div style="max-width:910px" class="main-header-content inner">
                        <h1 class="page-title"><a href="/show-204167981.html" title="InputSplit&&处理阶段mapReduce【partioner，combiner，shuffle】->reduce">InputSplit&&处理阶段mapReduce【partioner，combiner，shuffle】->reduce</a></h1>
            
        </div>

    </header>
    <main class="content" role="main">
	

        <div class="leftbox">
    <article class="post tag-uifont tag-webview">
        <header class="post-header">
            <footer class="tc">  
                <time class="post-date" datetime="2022-01-01">2022-01-01</time>
            </footer>
        </header>
        <section class="post-content">
            <div class="contentbef">  
                  
                              </div>

            
<p><span style="font-family:SimSun;font-size:18px;">InputSplit</span></p>
<p><span><span style="font-family:SimSun;font-size:18px;"></span></span></p>
<p>
<span style="font-family:SimSun;font-size:18px;">输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。</span></p>
<p>
<span style="font-family:SimSun;font-size:18px;"><a title="Hadoop知识库" href="http://lib.csdn.net/base/hadoop" rel="nofollow" target="_blank">Hadoop</a> 2.x默认的block大小是128MB，<a title="Hadoop知识库" href="http://lib.csdn.net/base/hadoop" rel="nofollow" target="_blank">hadoop</a> 1.x默认的block大小是64MB，可以在hdfs-site.xml中设置dfs.block.size，注意单位是byte。</span></p>
<p>
<span style="font-family:SimSun;font-size:18px;">分片大小范围可以在mapred-site.xml中设置，mapred.min.split.size mapred.max.split.size，<span style="line-height:21px;background-color:rgb(255,254,247);">minSplitSize大小默认为1B，<span style="line-height:21px;">maxSplitSize大小默认为Long.MAX_VALUE
= 9223372036854775807</span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><img alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpJMU5DODRaakE0TkRRM01qY3hNRGcxTVdVMU0yUmpaVGN4WWpCaVpUWXpOekptTmk1d2JtYz0=" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><img alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpZMU1TOWtaVGt5WVdZNVlUTTJZVEl6TVRkak9EaGlOR1U1WlRreFptSXdNbUl3TXk1S1VFVkg=" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;">没有设置分片的范围的时候，分片大小是由block块大小决定的，和它的大小一样。比如把一个258MB的文件上传到HDFS上，假设block块大小是128MB，那么它就会被分成三个block块，与之对应产生三个split，所以最终会产生三个map
task。第三个block块里存的文件大小只有2MB，而它的block块大小是128MB，那它实际占用Linux file system的多大空间？</span></span></span></p>
<p>
答案是实际的文件大小，而非一个块的大小。</p>
<br><p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;">MapReduce的三个过程</span></span></span></p>
<div>–Combiner</div>
<div>–Partitioner与自定义Partitioner</div>
<div>–Shuffle过程</div>
<div><br></div>
<div>1.Combineer</div>
<div>背景：</div>
<div>
<span>场景一：</span>
<p style="text-indent:-.31in;margin-left:.81in;">
如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。</p>
<p style="text-indent:-.38in;margin-left:.38in;">
　　<em>总结：</em>网络带宽严重被占降低程序效率；</p>
<p style="text-indent:-.38in;margin-left:.38in;">
场景二：</p>
</div>
<div>
<p style="text-indent:-.31in;margin-left:.81in;">
假设使用<a href="http://data.nber.org/patents/" rel="nofollow" target="_blank">美国专利数据集</a>中的国家一项来阐述数据倾斜这个定义，这样的数据远远不是一致性的或者说平衡分布的，由于大多数专利的国家都属于美国，这样不仅Mapper中的键值对、中间阶段(shuffle)的键值对等，大多数的键值对最终会聚集于一个单一的Reducer之上，压倒这个Reducer，从而大大降低程序的性能。</p>
<p style="text-indent:-.31in;margin-left:.81in;">
　　<em>总结：</em>单一节点承载过重降低程序性能；</p>
<div><br></div>
作用：</div>
<div>
<span></span>
<p style="text-indent:-.31in;margin-left:.81in;">
每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能</p>
</div>
<p></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpVeU55OWhNRGxtTXpZeFkyUXhaREZqWkRjME5qbGtNbVl5WXprM05HVXlOREV5Wmk1d2JtYz0=" alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"></span></span></span></p>
<p style="line-height:normal;text-indent:0in;vertical-align:baseline;">
优化MapReduce作业所使用带宽的步骤—Combiner，它在Mapper之后Reducer之前运行。Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的Mapper实例的输出作为输入，接着Combiner的输出会被发送到Reducer那里，而不是发送Mapper的输出。Combiner是一个<em>“迷你reduce”</em>过程，它只处理单台机器生成的数据。</p>
<p style="vertical-align:baseline;">
</p>
<br><p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"></span></span></span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
小结：</p>
<p style="text-indent:-.38in;margin-left:.38in;">
在实际的Hadoop集群操作中，我们是由多台主机一起进行MapReduce的，</p>
<p style="text-indent:-.38in;margin-left:.38in;">
如果加入规约操作，每一台主机会在reduce之前进行一次对本机数据的规约，</p>
<p style="text-indent:-.38in;margin-left:.38in;">
然后在通过集群进行reduce操作，这样就会大大节省reduce的时间，</p>
<p style="text-indent:-.38in;margin-left:.38in;">
从而加快MapReduce的处理速度</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
二、<span style="background-color:rgb(255,254,247);">Partitioner</span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<span style="background-color:rgb(255,254,247);"><img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNeU9DOWpNekpsWkRBeVl6aGtPRE15TURNd1ltSXlZVFV4WVdZek1HUTRaVGRoT0M1d2JtYz0=" alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<span style="background-color:rgb(255,254,247);"><br></span></p>
<p style="line-height:normal;text-indent:0in;vertical-align:baseline;">
step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对&lt;key,value&gt;，是需要送到Reducer去合并的，合并的时候，有相同key的键/值对会送到同一个Reducer节点中进行归并。哪个key到哪个Reducer的分配过程，是由Partitioner规定的。在一些集群应用中，例如分布式缓存集群中，缓存的数据大多都是靠哈希函数来进行数据的均匀分布的，在Hadoop中也不例外。</p>
<p style="vertical-align:baseline;">
</p>
<br><p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"></span></span></span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
MapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量（R）。</p>
<p style="text-indent:-.38in;margin-left:.38in;">
用户在中间key上使用分区函数来对数据进行分区，之后在输入到后续任务执行进程。一个默认的分区函数式使用hash方法（比如常见的：hash(key) mod R）进行分区。hash方法能够产生非常平衡的分区。</p>
<br><p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"></span></span></span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<strong>小结：</strong>分区Partitioner主要作用在于以下两点</p>
<div class="O1" style="text-indent:-.5in;margin-left:1in;">
1.根据业务需要，产生多个输出文件</div>
<div class="O1" style="text-indent:-.5in;margin-left:1in;">
2.多个reduce任务并发运行，提高整体job的运行效率</div>
<div class="O1" style="text-indent:-.5in;margin-left:1in;">
<br>
</div>
<div class="O1" style="text-indent:-.5in;margin-left:1in;">
<br>
</div>
三、Shuffle
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><br></span></span></span></p>
<p>
<span style="line-height:21px;background-color:rgb(255,254,247);"><span style="line-height:21px;"><span style="font-family:SimSun;font-size:18px;"><span></span></span></span></span></p>
<p style="text-indent:-.38in;margin-left:.38in;">
针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，这个过程就称作为Shuffle。</p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
Shuffle过程<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpRME5pOHpNV1ZpTkdVelpETXdNRGcwWlRnME5qTmxZV1JqT0dZM05qTTFZbVprTmk1d2JtYz0=" alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<strong><br></strong></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<strong>Map端</strong></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpneU1pOWxPVGszWXpRM05UTXdaR1psWW1RNE5qSmxNVGN5WkRJNE9EQm1aVEU1Tmk1S1VFVkg=" alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="line-height:normal;text-indent:0in;vertical-align:baseline;">
map过程的输出是写入本地磁盘而不是HDFS，但是一开始数据并不是直接写入磁盘而是缓冲在内存中，缓存的好处就是<strong>减少磁盘I/O的开销，提高合并和排序的速度</strong>。又因为默认的内存缓冲大小是100M（当然这个是可以配置的），所以<strong>在编写map函数的时候要尽量减少内存的使用，为shuffle过程预留更多的内存</strong>，因为该过程是最耗时的过程。</p>
<p style="vertical-align:baseline;">
</p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
1.在map端首先是InputSplit，在InputSplit中含有DataNode中的数据，每一个InputSplit都会分配一个Mapper任务，Mapper任务结束后产生&lt;K2,V2&gt;的输出，<u><strong>这些输出先存放在缓存中</strong></u>，每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8(io.sort.spil l.percent)，一个后台线程就把内容写到(spill)Linux本地磁盘中的指定目录（mapred.local.dir）下的新建的一个溢出写文件。</p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
2.写磁盘前，要进行partition、sort和combine等操作。通过分区，将不同类型的数据分开处理，之后对不同分区的数据进行排序，如果有Combiner，还要对排序后的数据进行combine。等最后记录写完，将全部溢出文件合并为一个分区且排序的文件</p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
3.最后将磁盘中的数据送到Reduce中，图中Map输出有三个分区，有一个分区数据被送到图示的Reduce任务中，剩下的两个分区被送到其他Reducer任务中。而图示的Reducer任务的其他的三个输入则来自其他节点的Map输出。</p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<strong>Reduce端</strong></p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
<img src="/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THprM09TODRZekZrTTJabU5qRm1OVEl6WldWbFlURmpPR0poWm1KbU16VTNNamcwWWk1S1VFVkg=" alt="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce" title="InputSplit&amp;&amp;处理阶段mapReduce【partioner，combiner，shuffle】-&gt;reduce"><br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
1. Copy阶段：Reducer通过Http方式得到输出文件的分区。</p>
<p style="text-indent:-.38in;margin-left:.38in;">
　　reduce端可能从n个map的结果中获取数据，而这些map的执行速度不尽相同，当其中一个map运行结束时，reduce就会从JobTracker中获取该信息。map运行结束后TaskTracker会得到消息，进而将消息汇报给JobTracker，reduce定时从JobTracker获取该信息，reduce端默认有5个数据复制线程从map端复制数据</p>
<p style="text-indent:-.38in;margin-left:.38in;">
2.</p>
<p style="text-indent:-.38in;margin-left:.38in;">
3.Reducer的参数：最后将合并后的结果作为输入传入Reduce任务中</p>
<p style="text-indent:-.38in;margin-left:.38in;">
阶段：如果形成多个磁盘文件会进行合并</p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
　　从map端复制来的数据首先写到reduce端的缓存中，同样缓存占用到达一定阈值后会将数据写到磁盘中，同样会进行partition、combine、排序等过程。如果形成了多个磁盘文件还会进行合并，最后一次合并的结果作为reduce的输入而不是写入到磁盘中</p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
3.Reducer的参数：最后将合并后的结果作为输入传入Reduce任务中</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
</p>
<p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<strong>Hadoop中的压缩</strong><br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
Shuffle过程中看到，map端在写磁盘的时候采用压缩的方式将map的输出结果进行压缩是一个减少网络开销很有效的方法</p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
<br><p style="text-indent:-.38in;margin-left:.38in;">
<br></p>
 
                    
                <div style="margin-top: 10px;">
                  </div> 
        </section>
	 
        <footer class="post-footer">
            <section class="author">
                                            </section>
        </footer>
        <p class="mt10">相关文章：</p>
        <div style="width: 100%;" class="contentcard">
      
            <div style="width: 100%;height: auto;" class="carditem litem clearfix"> 
                    <ul style="padding-left: 0rem;" class="cardcont">
                                            </ul>
               </div>   
         </div>
    </article>

  
</div>

<div class="rigthbox contentcard mt10">
 
          <div style="height: auto;" class="carditem litem">
    <div class="cardtit">猜你喜欢 </div>
        <ul class="cardcont">
                        </ul>
   </div> 

<div style="height: auto;" class="carditem litem">
    <div class="cardtit">相关资源 </div>
        <ul class="cardcont">
              
                            </ul>
   </div>
   
    <div style="height: auto;" class="carditem litem">
     <div class="cardtit">相似解决方案 </div>
         <ul class="cardcont">
                          </ul>
    </div>
  
   <div style="height: auto;background-color: #ddd;text-align: center;" class="carditem litem">
    <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
</div> 
   <div  style="height: auto;" class="carditem litem mt20">
    <div class="cardtit">热门标签  </div>
    <div class="tagbox">
                    <a target="_blank" title="Java" href="/default/index/tags?cid=164&cname=Java" >Java</a>
                        <a target="_blank" title="Python" href="/default/index/tags?cid=367&cname=Python" >Python</a>
                        <a target="_blank" title="linux" href="/default/index/tags?cid=274&cname=linux" >linux</a>
                        <a target="_blank" title="javascript" href="/default/index/tags?cid=169&cname=javascript" >javascript</a>
                        <a target="_blank" title="Mysql" href="/default/index/tags?cid=237&cname=Mysql" >Mysql</a>
                        <a target="_blank" title="C#" href="/default/index/tags?cid=187&cname=C%23" >C#</a>
                        <a target="_blank" title="Docker" href="/default/index/tags?cid=243&cname=Docker" >Docker</a>
                        <a target="_blank" title="算法" href="/default/index/tags?cid=344&cname=%E7%AE%97%E6%B3%95" >算法</a>
                        <a target="_blank" title="前端" href="/default/index/tags?cid=160&cname=%E5%89%8D%E7%AB%AF" >前端</a>
                        <a target="_blank" title="SpringBoot" href="/default/index/tags?cid=168&cname=SpringBoot" >SpringBoot</a>
                        <a target="_blank" title="Redis" href="/default/index/tags?cid=227&cname=Redis" >Redis</a>
                        <a target="_blank" title="Vue" href="/default/index/tags?cid=236&cname=Vue" >Vue</a>
                        <a target="_blank" title="spring" href="/default/index/tags?cid=696&cname=spring" >spring</a>
                        <a target="_blank" title="设计模式" href="/default/index/tags?cid=632&cname=%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F" >设计模式</a>
                        <a target="_blank" title=".net core" href="/default/index/tags?cid=381&cname=.net+core" >.net core</a>
                        <a target="_blank" title=".net" href="/default/index/tags?cid=300&cname=.net" >.net</a>
                        <a target="_blank" title="kubernetes" href="/default/index/tags?cid=2179&cname=kubernetes" >kubernetes</a>
                        <a target="_blank" title="c++" href="/default/index/tags?cid=312&cname=c%2B%2B" >c++</a>
                        <a target="_blank" title="数据库" href="/default/index/tags?cid=284&cname=%E6%95%B0%E6%8D%AE%E5%BA%93" >数据库</a>
                        <a target="_blank" title="数据结构" href="/default/index/tags?cid=247&cname=%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84" >数据结构</a>
                        <a target="_blank" title="大数据" href="/default/index/tags?cid=888&cname=%E5%A4%A7%E6%95%B0%E6%8D%AE" >大数据</a>
                        <a target="_blank" title="js" href="/default/index/tags?cid=159&cname=js" >js</a>
                        <a target="_blank" title="机器学习" href="/default/index/tags?cid=171&cname=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0" >机器学习</a>
                        <a target="_blank" title="微服务" href="/default/index/tags?cid=832&cname=%E5%BE%AE%E6%9C%8D%E5%8A%A1" >微服务</a>
                        <a target="_blank" title="Android" href="/default/index/tags?cid=282&cname=Android" >Android</a>
                        <a target="_blank" title="Go" href="/default/index/tags?cid=839&cname=Go" >Go</a>
                        <a target="_blank" title="程序员" href="/default/index/tags?cid=327&cname=%E7%A8%8B%E5%BA%8F%E5%91%98" >程序员</a>
                        <a target="_blank" title="面试" href="/default/index/tags?cid=637&cname=%E9%9D%A2%E8%AF%95" >面试</a>
                        <a target="_blank" title="JVM" href="/default/index/tags?cid=727&cname=JVM" >JVM</a>
                        <a target="_blank" title="ASP.net core" href="/default/index/tags?cid=179&cname=ASP.net+core" >ASP.net core</a>
                        <a target="_blank" title="云原生" href="/default/index/tags?cid=22056&cname=%E4%BA%91%E5%8E%9F%E7%94%9F" >云原生</a>
                        <a target="_blank" title="人工智能" href="/default/index/tags?cid=270&cname=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD" >人工智能</a>
                        <a target="_blank" title="后端" href="/default/index/tags?cid=1089&cname=%E5%90%8E%E7%AB%AF" >后端</a>
                        <a target="_blank" title="PHP" href="/default/index/tags?cid=281&cname=PHP" >PHP</a>
                        <a target="_blank" title="git" href="/default/index/tags?cid=226&cname=git" >git</a>
                        <a target="_blank" title="CSS" href="/default/index/tags?cid=817&cname=CSS" >CSS</a>
                        <a target="_blank" title="golang" href="/default/index/tags?cid=409&cname=golang" >golang</a>
                        <a target="_blank" title="k8s" href="/default/index/tags?cid=5067&cname=k8s" >k8s</a>
                        <a target="_blank" title="Nginx" href="/default/index/tags?cid=373&cname=Nginx" >Nginx</a>
                        <a target="_blank" title="Django" href="/default/index/tags?cid=634&cname=Django" >Django</a>
                        <a target="_blank" title="mybatis" href="/default/index/tags?cid=720&cname=mybatis" >mybatis</a>
                        <a target="_blank" title="深度学习" href="/default/index/tags?cid=345&cname=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" >深度学习</a>
                        <a target="_blank" title="多线程" href="/default/index/tags?cid=986&cname=%E5%A4%9A%E7%BA%BF%E7%A8%8B" >多线程</a>
                        <a target="_blank" title="React" href="/default/index/tags?cid=560&cname=React" >React</a>
                        <a target="_blank" title="架构" href="/default/index/tags?cid=2070&cname=%E6%9E%B6%E6%9E%84" >架构</a>
                        <a target="_blank" title="devops" href="/default/index/tags?cid=2662&cname=devops" >devops</a>
                        <a target="_blank" title="爬虫" href="/default/index/tags?cid=905&cname=%E7%88%AC%E8%99%AB" >爬虫</a>
                        <a target="_blank" title="云计算" href="/default/index/tags?cid=361&cname=%E4%BA%91%E8%AE%A1%E7%AE%97" >云计算</a>
                        <a target="_blank" title="Spring Boot" href="/default/index/tags?cid=201&cname=Spring+Boot" >Spring Boot</a>
                        <a target="_blank" title="LeetCode" href="/default/index/tags?cid=342&cname=LeetCode" >LeetCode</a>
                </div>
       
   </div>
   
        <div id="rightadbox" style="height: 300px;background-color: #ddd;text-align: center;" class="carditem litem">
            <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-5446233687289962" data-ad-slot="2607637140"  data-ad-format="auto"  data-full-width-responsive="true"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script>
        </div> 
</div>
<div class="clearfix"></div>
</main>
    
<div class="yllinks alink"></div>
 

<footer class="site-footer clearfix">
<section class="copyright">By &copy; 2026 <a href="/" title="www.likecs.com">likecs</a> 版权所有,<br/>本站所有数据收集于网络如有侵犯到您的权益请联系 进行下架处理1。 </section>
<section class="poweredby">  <a target="_blank" href="https://beian.miit.gov.cn/">粤ICP备22038628号</a>Powered By  WordPress </section>
<script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id: "Je3PjbvUssp6BbvY",ck: "Je3PjbvUssp6BbvY"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?2eb031e42d29b7c1a1f16948d2ae2a9f";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</footer>  
</div>
<script>
    $(function(){
                    $(".post-content").append('<p style="padding: 20px;color: #cacaca;">来源网络，如有侵犯到您的权益请联系进行下架处理</p>')  
            }) 
</script> 
</body>
</html>