MapReduce服务初体验玩转华为云】

网友投稿 596 2022-05-29

1、 概述

1.1、什么是MapReduce?

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

1.2、应用场景

大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。

1.2.1、海量数据分析场景

海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Transform-Load)处理形成模型化数据,以便提供给各个业务模块进行分析梳理,这类业务通常有以下特点:

对执行实时性要求不高,作业执行时间在数十分钟到小时级别。

数据量巨大。

数据来源和格式多种多样。

数据处理通常由多个任务构成,对资源需要进行详细规划。

例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行批量分析,在1小时内MRS可以完成10TB的天气数据分析。

环保行业海量数据分析场景

该场景下MRS的优势如下所示。

低成本:利用OBS实现低成本存储。

海量数据分析:利用Hive实现TB/PB级的数据分析。

可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。

1.2.2、海量数据存储场景

用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存1至3年的数据。

例如在车联网行业,某车企将数据储存在HBase中,以支持PB级别的数据存储和毫秒级的数据详单查询。

车联网行业海量数据存储场景

该场景下MRS的优势如下所示。

实时:利用Kafka实现海量汽车的消息实时接入。

海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。

分布式数据查询:利用Spark实现海量数据的分析查询。

1.2.3、实时数据处理

实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。

例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。

梯联网行业低时延流式处理场景

该场景下MRS的优势如下所示。

实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。

海量的数据源接入:利用Kafka实现万级别的电梯数据的实时接入。

2、操作步骤

详细体验过程如下:

2.1、登录实验环境

2.2、购买MapReduce服务

登录华为云完成后点击“控制台”->“服务列表”->“大数据”->“MapReduce服务MRS”进入MRS控制台,如下图所示:

点击右上角“购买集群”,进入购买集群页面。请选择“自定义购买”页面。按照如下信息配置集群基本信息:【区域】:华北-北京四【集群名称】:自定义名称,本实验手册以“mrs-hcia”为例【集群版本】:MRS 1.9.2【集群类型】:混合集群;

【分析组件】:全选

【流式组件】:全选

元数据:本地元数据完成后单击“下一步”。硬件配置如下:【计费模式】:按需计费【可用区】:默认【虚拟私有云】:点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。【子网】:虚拟私有云创建完成后子网自动创建并选中【安全组】:自动创建【弹性公网IP】:暂不绑定

直接选用默认设置,选择“立即创建”。

此时选择创建的私有云,选择子网,企业项目。

修改分析core节点配置

修改流式core节点配置。

在高级配置中,设置admin和root帐号密码。

以上操作顺利完成后,出现如下成功创建提示。

此时可看到集群状态为创建中。

2.3、购买弹性公网IP

进入创建的集群节点,

找到集群的master节点

点击后,选择查看公网ip

选择购买公网IP

创建后,会出现二个公网IP地址。

2.4、绑定弹性IP

浏览器切回到弹性云服务器的管理控制台页面。点击“绑定弹性公网IP”,网卡默认,勾选选择一个IP,点击“确定”。

2.5、修改安全组

修改云主机安全组;

进入虚拟私有云管理界面后,依次单击左侧 “访问控制”->“安全组”,进入安全组管理界面后,点击以mrs开头的安全组。

放通所有策略。

2.6、访问集群的管理页面

切换浏览器至“mrs-hcia”集群详情页面,点击“概览”->“IAM用户同步”,点击同步,然后点击“前往 Manager”,

出现如下界面,并输入前面设置的密码信息。

点击“登录”,即可进入MRS Manager页面。

2.7、利用MapReduce做单词统计

切回到桌面双击“Xfce终端”打开Terminal输入执行以下命令下载实验数据。

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount

下载成功后界面如下:

下载wordcount jar包

2.8、将数据和代码上传到OBS

在浏览器点击“控制台”->"服务列表" -> "存储" -> "对象存储服务",进入到对象存储服务页面,如下图所示:

在obs管理页面点击“创建桶”按钮创建一个OBS桶。参数配置如下图所示:【区域】:华北-北京四【数据冗余存储策略】:单AZ存储【桶名称】:自定义【存储类别】:标准存储【桶策略】:私有【默认加密】:关闭【归档数据直读】:关闭【标签】:默认

自定义桶名,选择单AZ;

此时会提示创建成功。

创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹,如下图所示:

同时将之前下载的文件上传至桶中。

2.9、提交mapreduce作业,进行单词统计

集群管理页面,选择“作业管理”

填写相关信息。

2.10、使用hdfs命令行客户端查询计算结果

MapReduce服务初体验【玩转华为云】

在MRS Manager页面的地址栏,复制弹性IP地址,如下图所示

双击“Xfce终端”打开Terminal,通过如下步骤,登录弹性服务器:操作说明:①输入ssh root@EIP;②用复制的弹性IP替换命令中的EIP,回车执行;③接受秘钥输入“yes”,回车执行;④输入密码(创建集群时设置的root密码),回车执行。注意:输入密码时,命令行窗口不会显示密码,输完之后直接回车即可连接成功,如下图所示:

根据提示输入相应的密码信息。

登录成功后,执行以下命令查看计算结果。

source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*

执行成功如下图所示:

由以上可知集群工作状态正常。

3、你觉得这项能力会给你带来哪些帮助:

熟悉了如何开通MapReduce服务;

了解了MapReduce分析组件的各项功能及用途;如Hue组件,可提供hadoop UI能力,能让用户通过浏览器分析处理Hadoop集群数据;Spark组件,具有快速、通用的大数据处理引擎;

熟悉了如何在华为云平台创建私有云;

熟悉了如何通过公网管理MapReduce集群主机;

熟悉了MapReduce Manager管理功能,管理功能很全面,方便用户进行日常运维。主要包括针对集群主机健康检查、各项MRS服务的健康状态、服务管理、主机管理、租户管理、告警管理、审计管理,同时集群中磁盘占用率、磁盘读写速率均会呈现出来,方便用户进行管理。

MapReduce操作界面简洁、实际操作方便,很易上手。

4、你所遇到的问题是:

在开通MapReduce服务时集群存在几个版本,分别有什么区别?应用场景有什么不一样吗?

在开通MapReduce服务时集群类型有分析集群、流式集群、混合集群,这三者有何不同之处,用户在购买时该如何进行选择?

在集群节点中,Master、分析Core、流式Core三个节点用途分别是什么?针对不同业务场景,实例数量有什么比例关系吗?

在创建MapReduce时花费时间稍微有点长(15分钟左右);是和选择的节点配置有关系吗?如果配置选高些,创建速度是否会快些?

5、结尾

实验链接如下,感兴趣的同学可以进行实际操作。

https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso

MapReduce MapReduce服务 大数据

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:JAVA常见代码优化技巧 ---面试总结
下一篇:深入JVM-虚拟机运行时内存
相关文章