《<a target="_blank" href="https://www.huoban.com/news/tags-2113.html"style="font-weight:bold;">Hadoop权威指南</a>：大<a target="_blank" href="https://www.huoban.com/news/tags-155.html"style="font-weight:bold;">数据</a>的存储与分析》

《Hadoop权威指南：大数据的存储与分析》—5.2.3 在MapReduce中使用压缩

网友投稿 736 2025-04-03

5.2.3 在MapReduce中使用压缩

前面讲到通过CompressionCodecFactory来推断CompressionCodec时指出，如果输入文件是压缩的，那么在根据文件扩展名推断出相应的codec后，MapReduce会在读取文件时自动解压缩文件。

要想压缩MapReduce作业的输出，应在作业配置过程中将mapreduce. output.fileoutputformat.compress属性设为true，将mapre-duce. output.fileoutputformat.compress.codec属性设置为打算使用的压缩codec的类名。另一种方案是在FileOutputFormat中使用更便捷的方法设置这些属性，如范例5-4所示。

范例5-4. 对查找最高气温作业所产生输出进行压缩

public class MaxTemperatureWithCompression {

public static void main(String[] args) throws IOException {

if (args.length != 2) {

System.err.println("Usage: MaxTemperatureWithCompression " +

"");

System.exit(-1);

}

Job job = new Job();

job.setJarByClass(MaxTemperature.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileOutputFormat.setCompressOutput(job, true);

FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

job.setMapperClass(MaxTemperatureMapper.class);

job.setCombinerClass(MaxTemperatureReducer.class);

job.setReducerClass(MaxTemperatureReducer.class);

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

我们按照如下指令对压缩后的输入运行程序(输出数据不必使用相同的压缩格式进行压缩，尽管本例中不是这样)：

% hadoop MaxTemperatureWithCompression input/ncdc/sample.txt.gz output

最终输出的每个部分都是经过压缩的。在这里，只有一部分结果：

% gunzip -c output/part-r-00000.gz

1949 111

1950 22

如果为输出生成顺序文件(sequence file)，可以设置mapreduce.out put.fileoutputformat.compress.type属性来控制限制使用压缩格式。默认值是RECORD，即针对每条记录进行压缩。如果将其改为BLOCK，将针对一组记录进行压缩，这是推荐的压缩策略，因为它的压缩效率更高(参见5.4.1节)。

SequenceFileOutputFormat类另外还有一个静态方法putCompressionType()，可以用来便捷地设置该属性。

《Hadoop权威指南：大数据的存储与分析》—5.2.3 在MapReduce中使用压缩

表5-5归纳概述了用于设置MpaReduce作业输出的压缩格式的配置属性。如果你的MapReduce驱动使用Tool接口(参见6.2.2节)，则可以通过命令行将这些属性传递给程序，这比通过程序代码来修改压缩属性更加简便。

表5-5. MapReduce的压缩属性

属性名称

类型

默认值

描述

mapreduce.output.

fileoutputformat.compress

boolean

false

是否压缩输出

mapreduce.output.

fileoutputformat.

compress.codec

类名称

org.apache.hadoop.io.

compress.DefaultCodec

map输出所用的压缩codec

mapreduce.output.

fileoutputformat.

compress.type

String

RECORD

顺序文件输出可以使用的压缩类型：NONE、RECORD或者BLOCK

尽管MapReduce应用读/写的是未经压缩的数据，但如果对map阶段的中间输入进行压缩，也可以获得不少好处。由于map任务的输出需要写到磁盘并通过网络传输到reducer节点，所以通过使用LZO、LZ4或者Snappy这样的快速压缩方式，是可以获得性能提升的，因为需要传输的数据减少了。启用map任务输出压缩和设置压缩格式的配置属性如表5-6所示。

表5-6. map任务输出的压缩属性

属性名称

类型

默认值

描述

mapreduce.map.

output.compress

boolean

false

是否对map任务输出进行压缩

mapreduce.map.

output.compress.codec

Class

org.apache.hadoop.io.

compress.DefaultCodec

map输出所用的压缩codec

下面是在作业中启用map任务输出gzip压缩格式的代码(使用新API)：

Configuration conf = new Configuration();

conf.setBoolean(Job.MAP_OUTPUT_COMPRESS, true);

conf.setClass(Job.MAP_OUTPUT_COMPRESS_CODEC, GzipCodec.class,

CompressionCodec.class);

Job job = new Job(conf);

在旧的API中(参见附录D)，JobConf对象中可以通过更便捷的方法实现该功能：

conf.setCompressMapOutput(true);

conf.setMapOutputCompressorClass(GzipCodec.class);

大数据 Hadoop MapReduce

九江市高中适合复读的学校综合排名TOP10

736 2025-04-03

《Hadoop权威指南：大数据的存储与分析》—5.2.3 在MapReduce中使用压缩

九江市高中适合复读的学校综合排名TOP10

江西科技学院附属中学（江科附中）2025年高三复读班招生信息全解析

九江高三复读学校有哪些，九江地区2025年高三复读学校推荐及选择指南

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

《Hadoop权威指南：大数据的存储与分析》—5.2.3 在MapReduce中使用压缩

微信扫一扫：分享

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

进销存库存管理盘点">简单进销存库存管理盘点

友情链接