<a target="_blank" href="https://www.huoban.com/news/tags-920.html"style="font-weight:bold;">MapReduce</a><a target="_blank" href="https://www.huoban.com/news/tags-78.html"style="font-weight:bold;">学习</a>（4）-伙伴云

网友投稿 654 2025-04-02

Map阶段详解

在Job提交前，会先将待处理的文件进行分片 (Split)。MR框架默认将一个块 (Block) 作为一个分片。客户端应用可以重定义块与分片的映射关系。

Map阶段先把数据放入一个环形内存缓冲区，当缓冲区数据达到80%左右时发生溢写 (Spill)，需将缓冲区中的数据写入到本地磁盘。写入本地磁盘之前通常需要做如下处理：

分区 (Partition)：默认采用Hash算法进行分区，MR框架根据Reduce Task个数来确定分区个数。具备相同Key值的记录最终被送到相同的Reduce Task来处理。

排序 (Sort)：将Map输出的记录排序，例如将(‘Hi’,’1’),(‘Hello’,’1’)重新排序为(‘Hello’,’1’), (’Hi’,’1’)。

组合 (Combine)：这个动作MR框架默认是可选的。例如将 (’Hi’,’1’), (’Hi’,’1’),(‘Hello’,’1’), (Hello’,’1’)进行合并操作为 (’Hi’,’2’), (‘Hello’,’2’)。

合并 (Spill)：Map Task在处理后会产生很多的溢出文件(spill file)，这时需将多个溢出文件进行合并处理，生成一个经过分区和排序的Spill File (MOF:MapOutFile)。为减少写入磁盘的数据量，MR支持对MOF进行压缩后再写入。

MapReduce学习（4）

MapReduce

MRS 3.0.x获取Kafka服务指标Java样例

654 2025-04-02

学习 Scala">为什么要学习 Scala

654 2025-04-02

学习 Python 的 5 大理由">学习 Python 的 5 大理由

654 2025-04-02

MapReduce 学习（4）

MRS 3.0.x获取Kafka服务指标Java样例

学习 Scala">为什么要学习 Scala

学习 Python 的 5 大理由">学习 Python 的 5 大理由

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

MapReduce学习（4）

微信扫一扫：分享

学习Scala">为什么要学习Scala

学习 Python 的 5 大理由">学习 Python 的 5 大理由

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

MapReduce 学习（4）

学习 Scala">为什么要学习 Scala