【云小课】EI第1课 MRS和自建Hadoop相比,有哪些优势?

网友投稿 769 2022-05-29

大数据时代企业要发展就必须进行数字化转型,要完成转型,企业需要利用大数据技术打破现有数据孤岛,构建数据分析和运营能力,才能达到降本增效。企业构建大数据平台时会面临如下两种选择:一种是大量购买机器及Hadoop发行商版本,本地自建Hadoop大数据集群;一种是按企业自身的需求,购买公有云大数据云服务构建自己的云上大数据平台。

企业该如何选择呢?云小课为您解读华为云大数据云服务MRS相比自建Hadoop集群的优势,帮助您更好的进行选择。

MapReduce服务(MRS)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,用户无需关注硬件的购买和维护。MRS服务拥有强大的Hadoop内核团队,基于华为FusionInsight大数据企业级平台构筑,历经行业数万节点部署量的考验,提供多级用户SLA保障。与自建Hadoop集群相比,MRS还具有以下优势:

1.  MRS支持一键式创建、删除、扩缩容集群,并通过弹性公网IP便携访问MRS集群管理系统,让大数据集群更加易于使用。

用户自建大数据集群面临成本高、周期长、运维难和不灵活等问题。针对这些问题,MRS支持一键式创建、删除、扩容和缩容集群的能力,用户可以自定制集群的类型,组件范围,各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与。同时支持用户快速创建多应用场景集群,比如快速创建Hadoop分析集群、HBase集群、Kafka集群。MRS支持部署异构集群,在集群中存在不同规格的虚拟机,允许在CPU类型,硬盘容量,硬盘类型,内存大小灵活组合。

MRS提供了基于弹性公网IP来便捷访问组件WebUI的安全通道,并且比用户自己绑定弹性公网IP更便捷,只需界面鼠标操作,即可简化原先用户需要自己登录虚拟私有云添加安全组规则,获取公网IP等步骤,减少了用户操作步骤。

MRS提供了自定义引导操作,用户可以以此为入口灵活配置自己的集群,通过引导操作用户可以自动化地完成安装MRS还没支持的第三方软件,修改集群运行环境等自定义操作。

MRS支持WrapperFS特性,提供OBS的翻译能力,兼容HDFS到OBS的平滑迁移,解决客户将HDFS中的数据迁移到OBS后,即可实现客户端无需修改自己的业务代码逻辑的情况下,访问存储到OBS的数据。

2.  MRS支持自动弹性伸缩,相对自建Hadoop集群的使用成本更低。

MRS可以按业务峰谷,自动弹性伸缩,在业务繁忙时申请额外资源,业务不繁忙时释放闲置资源,让用户按需使用,帮助用户节省大数据平台闲时资源,尽可能的帮助用户降低使用成本,聚焦核心业务。

在大数据应用,尤其是周期性的数据分析处理场景中,需要根据业务数据的周期变化,动态调整集群计算资源以满足业务需要。MRS的弹性伸缩规则功能支持根据集群负载对集群进行弹性伸缩。此外,如果数据量为周期有规律的变化,并且希望在数据量变化前提前完成集群的扩缩容,可以使用MRS的资源计划特性。MRS服务支持规则和时间计划两种弹性伸缩的策略:

弹性伸缩规则:根据集群实时负载对Task节点数量进行调整,数据量变化后触发扩缩容,有一定的延后性。

资源计划:若数据量变化存在周期性规律,则可通过资源计划在数据量变化前提前完成集群的扩缩容,避免出现增加或减少资源的延后。

弹性伸缩规则与资源计划均可触发弹性伸缩,两者即可同时配置也可单独配置。资源计划与基于负载的弹性伸缩规则叠加使用可以使得集群节点的弹性更好,足以应对偶尔超出预期的数据峰值出现。

3.  MRS支持存算分离,大幅提升大数据集群资源利用率。

针对传统存算一体大数据架构中扩容困难、资源利用率低等问题,MRS采用计算存储分离架构,存储基于公有云对象存储实现11个9的高可靠,无限容量,支撑企业数据量持续增长;计算资源支持0~N弹性扩缩,百节点快速发放。存算分离后,计算节点可实现真正的极致弹性伸缩;数据存储部分基于OBS的跨AZ等能力实现更高可靠性,无需担心地震、挖断光纤等突发事件。存储和计算资源可以灵活配置,根据业务需要各自独立进行弹性扩展,可使资源匹配更精准、更合理,让大数据集群资源利用率大幅提升,综合分析成本降低50%。

同时通过高性能的计算存储分离架构,打破存算一体架构并行计算的限制,最大化发挥对象存储的高带宽、高并发的特点,对数据访问效率和并行计算深度优化(元数据操作、写入算法优化等),实现性能提升。

4.  MRS支持自研CarbonData和自研超级调度器Superior Scheduler,性能更优。

【云小课】EI第1课 MRS和自建Hadoop相比,有哪些优势?

MRS支持自研的CarbonData存储技术。CarbonData是一种高性能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。

MRS支持自研超级调度器Superior Scheduler,突破单集群规模瓶颈,单集群调度能力超10000节点。Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。Superior Scheduler可实现开源调度器、Fair Scheduler以及Capacity Scheduler的所有功能。另外,相较于开源调度器,Superior Scheduler在企业级多租户调度策略、租户内多用户资源隔离和共享、调度性能、系统资源利用率和支持大集群扩展性方面都做了针对性的增强,让Superior Scheduler直接替代开源调度器。

5.  MRS基于鲲鹏处理器进行软硬件垂直优化,充分释放硬件算力,实现高性价比。

MRS支持华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,使用华为自研的操作系统EulerOS、华为JDK及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出。在性能相当情况下,端到端的大数据解决方案成本下降30%。

6.  MRS支持多种隔离模式及企业级的大数据多租户权限管理能力,安全性更高。

MRS服务支持资源专属区内部署,专属区内物理资源隔离,用户可以在专属区内灵活地组合计算存储资源,包括专属计算资源+共享存储资源、共享计算资源+专属存储资源、专属计算资源+专属存储资源。MRS集群内支持逻辑多租,通过权限隔离,对集群的计算、存储、表格等资源按租户划分。

MRS支持Kerberos安全认证,实现了基于角色的安全控制及完善的审计功能。

MRS支持对接华为云云审计服务(CTS),为用户提供MRS资源操作请求及请求结果的操作记录,供用户查询、审计和回溯使用。支持所有集群操作审计,所有用户行为可溯源。

MRS支持与主机安全服务对接,针对主机安全服务,做过兼容性测试,保证功能和性能不受影响的情况下,增强服务的安全能力。

MRS支持基于WebUI的统一的用户登录能力,MRS Manager自带用户认证环节,用户只有通过MRS Manager认证才能正常访问集群。

MRS支持数据存储加密,所有用户账号密码加密存储,数据通道加密传输,服务模块跨信任区的数据访问支持双向证书认证等能力。

MRS大数据集群提供了完整的企业级大数据多租户解决方案。多租户是MRS大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。

MRS支持细粒度权限管理,结合华为云IAM服务提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对MRS服务,管理员能够控制IAM用户仅能对集群进行指定的管理操作。如不允许某用户组删除集群,仅允许操作MRS集群基本操作,如创建集群、查询集群列表等。同时MRS支持多租户对OBS存储的细粒度权限管理,根据多种用户角色来区分访问OBS桶及其内部的对象的权限,实现MRS用户对OBS桶下的目录权限控制。

MRS支持企业项目管理。企业项目是一种云资源管理方式,企业管理(Enterprise Management)提供面向企业客户的云上资源管理、人员管理、权限管理、财务管理等综合管理服务。区别于管理控制台进行独立操控、配置云产品的方式,企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。MRS支持已开通企业项目服务的用户在创建集群时为集群配置对应的项目,然后使用企业项目管理对MRS上的的资源进行分组管理。此特性适用于客户针对多个资源进行分组管理,并对相应的企业项目进行诸如权限控制、分项目费用查看等操作的场景。

7.  MRS管理节点均实现HA,支持完备的可靠性机制,让系统更加可靠。

MRS在基于Apache Hadoop开源软件的基础上,在主要业务部件的可靠性方面进行了优化和提升。

管理节点均实现HA

Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。

MRS对所有业务组件的管理节点都提供了类似的双机的机制,包括MRS Manager、Presto、HDFS NameNode、Hive Server、HBase HMaster、YARN Resources Manager、Kerberos Server、Ldap Server等,全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。

完备的可靠性机制

通过可靠性分析方法,梳理软件、硬件异常场景下的处理措施,提升系统的可靠性。

Ø  保障意外掉电时的数据可靠性,不论是单节点意外掉电,还是整个集群意外断电,恢复供电后系统能够正常恢复业务,除非硬盘介质损坏,否则关键数据不会丢失。

Ø  硬盘亚健康检测和故障处理,对业务不造成实际影响。

Ø  自动处理文件系统的故障,自动恢复受影响的业务。

Ø  自动处理进程和节点的故障,自动恢复受影响的业务。

Ø  自动处理网络故障,自动恢复受影响的业务。

8.  MRS提供统一的可视化大数据集群管理界面,让运维人员更加轻松。

MRS提供统一的可视化大数据集群管理界面,包括服务启停、配置修改、健康检查等能力,并提供可视化、便捷的集群管理监控告警功能;支持一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。

MRS联合消息通知服务(SMN),在配置消息通知后,可以实时给用户发送MRS集群健康状态,用户可以通过手机短信或邮箱实时接收到MRS集群变更及组件告警信息,帮助用户轻松运维,实时监控,实时发送告警。

MRS支持滚动补丁升级,可视化补丁发布信息,一键式补丁安装,无需人工干预,不停业务,保障用户集群长期稳定。

MRS服务支持运维授权的功能,用户在使用MRS集群过程中,发生问题可以在MRS页面发起运维授权,由运维人员帮助客户快速定位问题,用户可以随时收回该授权。同时用户也可以在MRS 页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。

MRS支持将创建集群失败的日志转储到OBS,便于运维人员获取日志进行分析。

9.  MRS具有开放的生态,支持无缝对接周边服务,快速构建统一大数据平台。

以全栈大数据MRS服务为基础,企业可以一键式构筑数据接入、数据存储、数据分析和价值挖掘的统一大数据平台,并且与智能数据运营平台DAYU及数据可视化等服务对接,为客户轻松解决数据通道上云、大数据作业开发调度和数据展现的困难,使客户从复杂的大数据平台构建和专业大数据调优和维护中解脱出来,更加专注行业应用,使客户完成一份数据多业务场景使用的诉求。DAYU是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能。MRS数据支持连接DAYU平台,并基于可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,极大地降低了用户使用大数据的门槛,帮助用户快速构建大数据处理中心,对数据进行治理及开发调度,快速实现数据变现。

MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能够帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码0修改,业务0中断”。

想了解更多华为云MRS服务,请点击这里访问MRS产品页了解详情。

大数据 云小课

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:最强Spark内存管理剖析,值得收藏~
下一篇:《Python大规模机器学习》 —2.4数据流的特征管理
相关文章