MapReduce工作流多种实现方式-伙伴云

MapReduce工作流多种实现方式

网友投稿 690 2025-04-02

学习hadoop，必不可少的就是编写 MapReduce 程序。当然，对于简单的分析程序，我们只需一个MapReduce任务就能搞定，然而对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行分析计算。本次主要说明的是多个 Job 或者多个 MapReduce 的编程形式。

MapReduce 的主要有以下几种编程形式

迭代式 MapReduce:

MapReduce 迭代方式，通常是将上一个 MapReduce 任务的输出作为下一个 MapReduce 任务的输入，可只保留 MapReduce 任务的最终结果，中间数据可以删除或保留，可根据业务需要自行决定。

迭代式 MapReduce 的示例代码如下所示:

Configuration conf = new Configuration();

//第一个 MapReduce 任务

Job job1 = new Job(conf,"job1");

.....

FileInputFormat.addInputPath(job1,input);//job1的输入

FileOutputFromat.setOutputPath(job1,out1);//job1的输出

job1.waitForCompletion(true);

//第二个 Mapreduce 任务

Job job2 = new Job(conf,"job2");

.....

FileInputFormat.addInputPath(job2,out1);//job1的输出作为job2的输入

FileOutputFromat.setOutputPath(job2,out2);//job2 的输出

job2.waitForCompletion(true);

//第三个 Mapreduce 任务

Job job3 = new Job(conf,"job3");

.....

FileInputFormat.addInputPath(job3,out2);//job2的输出作为job3的输入

FileOutputFromat.setOutputPath(job3,out3);//job3 的输出

job3.waitForCompletion(true);

.....

虽然 MapReduce 的迭代可实现多任务的执行，但是它具有如下两个缺点：

1、每次迭代，如果所有 Job 对象重复创建，代价将非常高。

2、每次迭代，数据都要写入本地，然后从本地读取，I/O和网络传输的代价比较大。

依赖关系式 MapReuce：

依赖关系式 MapReduce主要是由 org.apache.hadoop.mapred.jobcontrol 包中的 JobControl 类来实现。JobControl 的实例表示一个作业的运行图，你可以加入作业配置，然后告知 JobControl 实例作业之间的依赖关系。在一个线程中运行 JobControl 时，它将按照依赖顺序来执行这些作业。也可以查看进程，在作业结束后，可以查询作业的所有状态和每个失败相关的错误信息。如果一个作业失败，JobControl 将不执行与之有依赖关系的后续作业。

依赖关系式 MapReuce 的示例代码如下所示：

注意：hadoop的JobControl类实现了线程Runnable接口。我们需要实例化一个线程来启动它。直接调用JobControl的run()方法，线程将无法结束。

线性链式 MapReduce

大量的数据处理任务涉及对记录的预处理和后处理。

例如：在处理信息检索的文档时，可能一步是移除 stop words（像a、the和is这样经常出现但不太有意义的词），另一步做stemming（转换一个词的不同形式为相同的形式，例如转换finishing和finished为finish）。

你可以为预处理与后处理步骤各自编写一个 MapReduce 作业，并把它们链接起来。在这些步骤中可以使用IdentityReducer（或完全不同的 Reducer）。由于过程中每一个步骤的中间结果都需要占用I/O和存储资源，这种做法是低效的。另一种方法是自己写 mapper去预先调用所有的预处理步骤，再让reducer调用所有的后处理步骤。这将强制你采用模块化和可组合的方式来构建预处理和后处理。因此Hadoop引入了ChainMapper 和ChainReducer类来简化预处理和后处理的构成。

hadoop提供了专门的链式ChainMapper和ChainReducer来处理线性链式MapReduce任务。在Map或者Reduce阶段存在多个Mapper，这些Mapper像Linux管道一样，前一个Mapper的输出结果直接重定向到后一个Mapper的输入，形成流水线。其调用形式如下：

... //预处理

ChainMapper.addMapper(...);

ChainReducer.setReducer(...);

ChainReducer.addMapper(...);

... //后处理

MapReduce工作流多种实现方式

//addMapper()调用的方法形式如下：

public static void addMapper(Job job,

Class< extends Mapper> mclass,

Class< extends K1> inputKeyClass,

Class< extends V1> inputValueClass,

Class< extends K2> outputKeyClass,

Class< extends V2> outputValueClass,

Configuration conf

)

addMapper()方法有8个参数。第一个和最后一个分别为全局的Job和本地的configuration对象。第二个参数是 Mapper类，负责数据处理。余下4个参数 inputKeyClass、inputValueClass、outputKeyClass和outputValueClass是这个Mapper类中输入/输出类的类型。ChainReducer专门提供了一个setReducer()方法来设置整个作业唯一的Reducer，语法与addMapper()方法类似。

线性链式 MapReduce 的示例代码如下所示:

Hadoop 大数据 MapReduce

大数据 服务上云的思考">大数据 服务上云的思考

690 2025-04-02

国美&华为，战略合作签约！

690 2025-04-02

面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

690 2025-04-02

MapReduce工作流多种实现方式

大数据 服务上云的思考">大数据 服务上云的思考

国美&华为，战略合作签约！

面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

MapReduce工作流多种实现方式

微信扫一扫：分享

大数据服务上云的思考">大数据服务上云的思考

面对大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接