1.在HDFS文件系统读取数据

2.对数据进行合并

3.进行逻辑切分

4.ReduceRead
- 将数据进行切分 key为行首字母的偏移量 value为对应的行数据

5.根据业务需求书写map的java代码

6.讲数据读取到内存缓冲区(默认100M)中

7.读到一定的阈值(默认0.8)往外面写出一个小文件


8.写出到达一定的文件时进行一定的个数(默认10个)时进行合并

9.最终写出磁盘

相关文章:
-
2021-10-01
-
2021-08-03
-
2021-04-12
-
2021-12-10
-
2022-12-23
-
2021-04-28
-
2021-06-02
猜你喜欢
-
2022-01-04
-
2021-10-17
-
2021-08-01
-
2021-08-20
-
2021-07-20
-
2021-12-12
-
2021-08-29
相关资源
-
下载
2023-01-16
-
下载
2021-06-27
-
下载
2023-01-18