Map Reduce 中的大数据文件处理

【问题标题】：Big Data File Processing in Map ReduceMap Reduce 中的大数据文件处理
【发布时间】：2013-10-02 03:24:53
【问题描述】：

我试图了解 Map Reduce 的一般工作原理。所以我所知道的是，有一些 Mapper 在多台计算机上并行运行并创建一个结果集，然后由在多台计算机上并行运行的 Reducers 使用该结果集来创建预期的数据集。

我的问题是：

一项作业是否在固定数量的文件上运行？所以，在一开始一个Job，有固定数量的文件需要处理到处理并产生一些数据。
如果不是，那么我们如何处理一个可能来自不同来源的数据流 Twitter 提要等？
如果是，请说明 Map Reduce 如何找到当所有映射器都完成并且减少任务应该开始，因为可能没有参考点。

【问题讨论】：

标签： hadoop mapreduce bigdata

【解决方案1】：

答案：

是的。基本上工作开始，处理文件并结束。没有永远运行。
流处理可以由 Storm 或类似的处理技术，但不仅仅是 Hadoop，因为它是一个批处理系统。你也可以看看Hadoop Yarn和Storm can work together是怎么回事。
应该是一个参考点，因为tasktracker运行在不同节点发送正在运行的不同任务（Map 任务/Reduce 任务）的状态信息定期发送到作业跟踪器，后者负责协调作业运行。

【讨论】：

感谢 JtheRocker :) 我将探索 Storm 和 Yarn

猜你喜欢

1970-01-01
1970-01-01
2016-11-16
1970-01-01
2018-03-18
1970-01-01
1970-01-01
2017-09-05
2021-01-12

相关资源

下载 2021-06-06
下载 2021-06-24
下载 2022-12-20

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode