wps栏目上的运服务怎么没有了
596
2022-05-29
1、 概述
1.1、什么是MapReduce?
大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。
针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
1.2、应用场景
大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。
1.2.1、海量数据分析场景
海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Transform-Load)处理形成模型化数据,以便提供给各个业务模块进行分析梳理,这类业务通常有以下特点:
对执行实时性要求不高,作业执行时间在数十分钟到小时级别。
数据量巨大。
数据来源和格式多种多样。
数据处理通常由多个任务构成,对资源需要进行详细规划。
例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行批量分析,在1小时内MRS可以完成10TB的天气数据分析。
环保行业海量数据分析场景
该场景下MRS的优势如下所示。
低成本:利用OBS实现低成本存储。
海量数据分析:利用Hive实现TB/PB级的数据分析。
可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。
1.2.2、海量数据存储场景
用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存1至3年的数据。
例如在车联网行业,某车企将数据储存在HBase中,以支持PB级别的数据存储和毫秒级的数据详单查询。
车联网行业海量数据存储场景
该场景下MRS的优势如下所示。
实时:利用Kafka实现海量汽车的消息实时接入。
海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。
分布式数据查询:利用Spark实现海量数据的分析查询。
1.2.3、实时数据处理
实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。
例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。
梯联网行业低时延流式处理场景
该场景下MRS的优势如下所示。
实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
海量的数据源接入:利用Kafka实现万级别的电梯数据的实时接入。
2、操作步骤
详细体验过程如下:
2.1、登录实验环境
2.2、购买MapReduce服务
登录华为云完成后点击“控制台”->“服务列表”->“大数据”->“MapReduce服务MRS”进入MRS控制台,如下图所示:
点击右上角“购买集群”,进入购买集群页面。请选择“自定义购买”页面。按照如下信息配置集群基本信息:【区域】:华北-北京四【集群名称】:自定义名称,本实验手册以“mrs-hcia”为例【集群版本】:MRS 1.9.2【集群类型】:混合集群;
【分析组件】:全选
【流式组件】:全选
元数据:本地元数据完成后单击“下一步”。硬件配置如下:【计费模式】:按需计费【可用区】:默认【虚拟私有云】:点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。【子网】:虚拟私有云创建完成后子网自动创建并选中【安全组】:自动创建【弹性公网IP】:暂不绑定
直接选用默认设置,选择“立即创建”。
此时选择创建的私有云,选择子网,企业项目。
修改分析core节点配置
修改流式core节点配置。
在高级配置中,设置admin和root帐号密码。
以上操作顺利完成后,出现如下成功创建提示。
此时可看到集群状态为创建中。
2.3、购买弹性公网IP
进入创建的集群节点,
找到集群的master节点
点击后,选择查看公网ip
选择购买公网IP
创建后,会出现二个公网IP地址。
2.4、绑定弹性IP
浏览器切回到弹性云服务器的管理控制台页面。点击“绑定弹性公网IP”,网卡默认,勾选选择一个IP,点击“确定”。
2.5、修改安全组
修改云主机安全组;
进入虚拟私有云管理界面后,依次单击左侧 “访问控制”->“安全组”,进入安全组管理界面后,点击以mrs开头的安全组。
放通所有策略。
2.6、访问集群的管理页面
切换浏览器至“mrs-hcia”集群详情页面,点击“概览”->“IAM用户同步”,点击同步,然后点击“前往 Manager”,
出现如下界面,并输入前面设置的密码信息。
点击“登录”,即可进入MRS Manager页面。
2.7、利用MapReduce做单词统计
切回到桌面双击“Xfce终端”打开Terminal输入执行以下命令下载实验数据。
wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount
下载成功后界面如下:
下载wordcount jar包
2.8、将数据和代码上传到OBS
在浏览器点击“控制台”->"服务列表" -> "存储" -> "对象存储服务",进入到对象存储服务页面,如下图所示:
在obs管理页面点击“创建桶”按钮创建一个OBS桶。参数配置如下图所示:【区域】:华北-北京四【数据冗余存储策略】:单AZ存储【桶名称】:自定义【存储类别】:标准存储【桶策略】:私有【默认加密】:关闭【归档数据直读】:关闭【标签】:默认
自定义桶名,选择单AZ;
此时会提示创建成功。
创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹,如下图所示:
同时将之前下载的文件上传至桶中。
2.9、提交mapreduce作业,进行单词统计
集群管理页面,选择“作业管理”
填写相关信息。
2.10、使用hdfs命令行客户端查询计算结果
在MRS Manager页面的地址栏,复制弹性IP地址,如下图所示
双击“Xfce终端”打开Terminal,通过如下步骤,登录弹性服务器:操作说明:①输入ssh root@EIP;②用复制的弹性IP替换命令中的EIP,回车执行;③接受秘钥输入“yes”,回车执行;④输入密码(创建集群时设置的root密码),回车执行。注意:输入密码时,命令行窗口不会显示密码,输完之后直接回车即可连接成功,如下图所示:
根据提示输入相应的密码信息。
登录成功后,执行以下命令查看计算结果。
source /opt/client/bigdata_env && hdfs dfs -cat /user/wordcount/*
执行成功如下图所示:
由以上可知集群工作状态正常。
3、你觉得这项能力会给你带来哪些帮助:
熟悉了如何开通MapReduce服务;
了解了MapReduce分析组件的各项功能及用途;如Hue组件,可提供hadoop UI能力,能让用户通过浏览器分析处理Hadoop集群数据;Spark组件,具有快速、通用的大数据处理引擎;
熟悉了如何在华为云平台创建私有云;
熟悉了如何通过公网管理MapReduce集群主机;
熟悉了MapReduce Manager管理功能,管理功能很全面,方便用户进行日常运维。主要包括针对集群主机健康检查、各项MRS服务的健康状态、服务管理、主机管理、租户管理、告警管理、审计管理,同时集群中磁盘占用率、磁盘读写速率均会呈现出来,方便用户进行管理。
MapReduce操作界面简洁、实际操作方便,很易上手。
4、你所遇到的问题是:
在开通MapReduce服务时集群存在几个版本,分别有什么区别?应用场景有什么不一样吗?
在开通MapReduce服务时集群类型有分析集群、流式集群、混合集群,这三者有何不同之处,用户在购买时该如何进行选择?
在集群节点中,Master、分析Core、流式Core三个节点用途分别是什么?针对不同业务场景,实例数量有什么比例关系吗?
在创建MapReduce时花费时间稍微有点长(15分钟左右);是和选择的节点配置有关系吗?如果配置选高些,创建速度是否会快些?
5、结尾
实验链接如下,感兴趣的同学可以进行实际操作。
https://lab.huaweicloud.com/testdetail_376?ticket=ST-1274995-ed41wO324XxCRZwyAJDdceVC-sso
MapReduce MapReduce服务 大数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。