MapReduce服务初体验【玩转华为云】-伙伴云

网友投稿 700 2022-05-29

1、概述

1.1、什么是MapReduce？

大数据是人类进入互联网时代以来面临的一个巨大问题：社会生产生活产生的数据量越来越大，数据种类越来越多，数据产生的速度越来越快。传统的数据处理技术，比如说单机存储，关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题，Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台，可以充分利用集群的计算和存储能力，完成海量数据的处理。企业自行部署Hadoop系统有成本高，周期长，难运维和不灵活等问题。

针对上述问题，华为云提供了大数据MapReduce服务（MRS），MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务，完全兼容开源接口，结合华为云计算、存储优势及大数据行业经验，为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，并具备在后续根据业务需要进行定制开发的能力，帮助企业快速构建海量数据信息处理系统，并通过对海量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。

1.2、应用场景

大数据在人们的生活中无处不在，在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。

1.2.1、海量数据分析场景

海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源，接入后需要对数据进行ETL（Extract-Transform-Load）处理形成模型化数据，以便提供给各个业务模块进行分析梳理，这类业务通常有以下特点：

对执行实时性要求不高，作业执行时间在数十分钟到小时级别。

数据量巨大。

数据来源和格式多种多样。

数据处理通常由多个任务构成，对资源需要进行详细规划。

例如在环保行业中，可以将天气数据存储在OBS，定期转储到HDFS中进行批量分析，在1小时内MRS可以完成10TB的天气数据分析。

环保行业海量数据分析场景

该场景下MRS的优势如下所示。

低成本：利用OBS实现低成本存储。

海量数据分析：利用Hive实现TB/PB级的数据分析。

MapReduce服务初体验【玩转华为云】

可视化的导入导出工具：通过可视化导入导出工具Loader，将数据导出到DWS，完成BI分析。

1.2.2、海量数据存储场景

用户拥有大量结构化数据后，通常需要提供基于索引的准实时查询能力，如车联网场景下，根据汽车编号查询汽车维护信息，存储时，汽车信息会基于汽车编号进行索引，以实现该场景下的秒级响应。通常这类数据量比较庞大，用户可能保存1至3年的数据。

例如在车联网行业，某车企将数据储存在HBase中，以支持PB级别的数据存储和毫秒级的数据详单查询。

车联网行业海量数据存储场景

该场景下MRS的优势如下所示。

实时：利用Kafka实现海量汽车的消息实时接入。

海量数据存储：利用HBase实现海量数据存储，并实现毫秒级数据查询。

分布式数据查询：利用Spark实现海量数据的分析查询。

1.2.3、实时数据处理

实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景，在数据输入系统的过程中，对数据进行处理。

例如在梯联网行业，智能电梯的数据，实时传入到MRS的流式集群中进行实时告警。

梯联网行业低时延流式处理场景

该场景下MRS的优势如下所示。

实时数据采集：利用Flume实现实时数据采集，并提供丰富的采集和存储连接方式。

海量的数据源接入：利用Kafka实现万级别的电梯数据的实时接入。

2、操作步骤

详细体验过程如下：

2.1、登录实验环境

2.2、购买MapReduce服务

登录华为云完成后点击“控制台”->“服务列表”->“大数据”->“MapReduce服务MRS”进入MRS控制台，如下图所示：

点击右上角“购买集群”，进入购买集群页面。请选择“自定义购买”页面。按照如下信息配置集群基本信息：【区域】：华北-北京四【集群名称】：自定义名称，本实验手册以“mrs-hcia”为例【集群版本】：MRS 1.9.2【集群类型】：混合集群；

【分析组件】：全选

【流式组件】：全选

元数据：本地元数据完成后单击“下一步”。硬件配置如下：【计费模式】：按需计费【可用区】：默认【虚拟私有云】：点击“查看虚拟私有云”，进入虚拟私有云界面，点击“创建虚拟私有云”，所有参数默认，点击“立即创建”即可。回到购买集群页面，点击刷新按钮，即可选中创建的虚拟私有云。【子网】：虚拟私有云创建完成后子网自动创建并选中【安全组】：自动创建【弹性公网IP】：暂不绑定

直接选用默认设置，选择“立即创建”。

此时选择创建的私有云，选择子网，企业项目。

修改分析core节点配置

修改流式core节点配置。

在高级配置中，设置admin和root帐号密码。

以上操作顺利完成后，出现如下成功创建提示。

此时可看到集群状态为创建中。

2.3、购买弹性公网IP

进入创建的集群节点，

找到集群的master节点

点击后，选择查看公网ip

选择购买公网IP

创建后，会出现二个公网IP地址。

2.4、绑定弹性IP

浏览器切回到弹性云服务器的管理控制台页面。点击“绑定弹性公网IP”，网卡默认，勾选选择一个IP，点击“确定”。

2.5、修改安全组

修改云主机安全组；

进入虚拟私有云管理界面后，依次单击左侧 “访问控制”->“安全组”，进入安全组管理界面后，点击以mrs开头的安全组。

放通所有策略。

2.6、访问集群的管理页面

切换浏览器至“mrs-hcia”集群详情页面，点击“概览”->“IAM用户同步”，点击同步，然后点击“前往 Manager”，

出现如下界面，并输入前面设置的密码信息。

点击“登录”，即可进入MRS Manager页面。

2.7、利用MapReduce做单词统计

切回到桌面双击“Xfce终端”打开Terminal输入执行以下命令下载实验数据。

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount

下载成功后界面如下：

下载wordcount jar包

2.8、将数据和代码上传到OBS

在浏览器点击“控制台”->"服务列表" -> "存储" -> "对象存储服务"，进入到对象存储服务页面，如下图所示：

在obs管理页面点击“创建桶”按钮创建一个OBS桶。参数配置如下图所示：【区域】：华北-北京四【数据冗余存储策略】：单AZ存储【桶名称】：自定义【存储类别】：标准存储【桶策略】：私有【默认加密】：关闭【归档数据直读】：关闭【标签】：默认

自定义桶名，选择单AZ；

此时会提示创建成功。

创建完成后点击桶名称进入对象存储服务，点击左侧栏"对象"，进入到对象管理页面，再点击“新建文件夹”创建一个名为“input”的文件夹，如下图所示：

同时将之前下载的文件上传至桶中。

2.9、提交mapreduce作业，进行单词统计

集群管理页面，选择“作业管理”

填写相关信息。

2.10、使用hdfs命令行客户端查询计算结果

在MRS Manager页面的地址栏，复制弹性IP地址，如下图所示

双击“Xfce终端”打开Terminal，通过如下步骤，登录弹性服务器：操作说明：①输入ssh root@EIP；②用复制的弹性IP替换命令中的EIP，回车执行；③接受秘钥输入“yes”，回车执行；④输入密码（创建集群时设置的root密码），回车执行。注意：输入密码时，命令行窗口不会显示密码，输完之后直接回车即可连接成功，如下图所示：

根据提示输入相应的密码信息。

登录成功后，执行以下命令查看计算结果。

source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*

执行成功如下图所示：

由以上可知集群工作状态正常。

3、你觉得这项能力会给你带来哪些帮助：

熟悉了如何开通MapReduce服务；

了解了MapReduce分析组件的各项功能及用途；如Hue组件，可提供hadoop UI能力，能让用户通过浏览器分析处理Hadoop集群数据；Spark组件，具有快速、通用的大数据处理引擎；

熟悉了如何在华为云平台创建私有云；

熟悉了如何通过公网管理MapReduce集群主机；

熟悉了MapReduce Manager管理功能，管理功能很全面，方便用户进行日常运维。主要包括针对集群主机健康检查、各项MRS服务的健康状态、服务管理、主机管理、租户管理、告警管理、审计管理，同时集群中磁盘占用率、磁盘读写速率均会呈现出来，方便用户进行管理。

MapReduce操作界面简洁、实际操作方便，很易上手。

4、你所遇到的问题是：

在开通MapReduce服务时集群存在几个版本，分别有什么区别？应用场景有什么不一样吗？

在开通MapReduce服务时集群类型有分析集群、流式集群、混合集群，这三者有何不同之处，用户在购买时该如何进行选择？

在集群节点中，Master、分析Core、流式Core三个节点用途分别是什么？针对不同业务场景，实例数量有什么比例关系吗？

在创建MapReduce时花费时间稍微有点长（15分钟左右）；是和选择的节点配置有关系吗？如果配置选高些，创建速度是否会快些？

5、结尾

实验链接如下，感兴趣的同学可以进行实际操作。

https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso

MapReduce MapReduce服务大数据

图片怎么转化成文字（如何将图片转化成文字）

700 2022-05-29

MapReduce 服务 初体验【玩转华为云】

wps栏目上的运服务怎么没有了

图片怎么转化成文字（如何将图片转化成文字）

图片怎么转化成文字（wps图片怎么转化成文字）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

用在线电子表格，居家办公更轻松

友情链接

MapReduce服务初体验【玩转华为云】

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

MapReduce 服务初体验【玩转华为云】