具有多个文件并杀死其中的映射器的 Hadoop Wordcount 示例

【问题标题】：Hadoop Wordcount Example with multiple files and kill mappers in it具有多个文件并杀死其中的映射器的 Hadoop Wordcount 示例
【发布时间】：2026-01-29 02:35:02
【问题描述】：

我有 3 个输入文件：file1.txt、file2.txt、file3.txt。 file1.txt 包含一些错误数据。当我在 MapReduce 作业中提交这些文件时，将创建 3 个映射器。现在我需要杀死包含名为 file1.txt 的错误文件的映射器。杀死映射器后，我希望从映射器中丢弃错误文件并将其存储在 hdfs 中。我怎样才能杀死映射器并丢弃文件？？
如果我杀死了映射器，剩下的映射器应该完成他们的过程并且整个工作应该完成。请帮忙

【问题讨论】：

你会通过杀死映射器来实现什么？另外，“我希望从映射器中丢弃错误文件并将其存储在 hdfs 中”是什么意思？
假设错误文件包含“Hello World Bye World”。因此，如果令牌包含 "Bye" ，我希望不解析整个文件，并且应该杀死包含该文件的映射器。 “再见”之前或之后的单词不应该被解析，映射器应该被杀死。休息映射器应该继续他们的任务并且工作应该完成

标签： java hadoop mapreduce

【解决方案1】：

这可能不是一种选择方法。将元组 (K, V) 存储在映射内存中，如果不满足无效条件，则在最后发出它们。

【讨论】：

我的输入文件很大，我无法保存到内存中。
@user2991007：如果您的输入文件大小（例如 file1.txt）大于块大小，除非您使用 customInputFormat，否则您不会为该文件获得多个地图任务?
@user2991007，你能提供file1.txt和HDFS块的大小吗？

猜你喜欢

杀死一个线程 2026-01-25
如何从另一个文件/类访问/更新某个头文件中的映射 2026-01-16
EF - 处理多个多对多映射的正确方法 2026-01-20
Swift 3：杀死之前的场景 2026-01-12
如何将具有索引的数组映射到具有自定义 JsonConverter 的对象 2026-01-04
最小值并发映射 2026-01-12
AndEngine - X 秒后杀死 Sprite？ 2026-01-25
如何在 python 中比较多个文件并显示与 SSN 相关的所有名称变体 2026-01-18
Rails、ActiveJobs 和 AWS SQS：当一个工作实例被杀死时，我的工作会发生什么？ 2026-01-03

相关资源

Apache服务器的配置文件中文WORD版下载 2023-02-22
MongoDB Java与对象关系映射中文WORD版下载 2022-12-13
JXL操作EXCEL的各个类的解析中文WORD版下载 2022-12-02
VB中treeview控件的使用方法中文WORD版下载 2023-07-09
Linux环境下hadoop运行平台的搭建中文WORD版下载 2023-01-15

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式