华为云EI智能数据湖FusionInsight 8.0 MRS新版本:融合大数据平台

网友投稿 2001 2022-05-29

一、FusionInsight MRS概述

FusionInsight MRS是华为FusionInsigth HD企业级大数据平台本与原华为云MRS服务的融合版本,是华为云(Huawei Cloud)、HCS(Huawei Cloud Stack)统一的企业级大数据云服务。FusionInsight MRS完全兼容开源组件接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、高性价比、灵活易用的全栈大数据平台,一站式运行Hadoop、Spark、HBase、Kafka、Flink等大数据组件,帮助企业快速构建海量数据处理系统,发现全新价值点和企业商机。FusionInsight MRS服务拥有强大的Hadoop组件内核团队,历经行业数十万节点部署量的考验,为60+国家3000+客户提供企业大数据服务。

华为云EI智能数据湖FusionInsight 8.0 MRS新版本:融合大数据平台

FusionInsight 8.0 MRS产品架构

FusionInsight 8.0 MRS针对开源组件进行了大面积升级,提供最新能力,并在社区基础上对功能、性能、可靠性等方面进行了增强。

FusionInsight 8.0 MRS详细组件列表见下图:

二、FusionInsight 8.0 MRS的新特性

根据最新的架构,对于主要功能在新版本的增强如下:

2.1 Hadoop Core

支持从2.7.2版本平滑升级至3.1.1版本;

支持RBF的多NameNode部署,缓解主NameNode压力,提升响应速度;

支持CPU、内存等多种资源模型调度;

Superior调度器提高资源任务调度性能。

2.2 流接入与流处理

1、支持Flink on Hive,提供FlinkSQL与Hive交互的能力,给离线数仓带来Flink实时流能力,同时大大提高Flink易用性:

集成Hive,允许用户使用 SQL DDL 将 Flink 特有的元数据持久化到 Hive Metastore、调用 Hive 中定义的 UDF 以及读、写 Hive 中的表;

Batch SQL支持原生分区:写入静态分区、写入动态分区;投影下推;LIMIT 下推;读取数据时的ORC向量化;

Table API/SQL扩展,SQL DDL 中支持定义 watermark,扩展SQL DDL的语法,支持创建目录函数、临时函数以及临时系统函数。

2、Flink窗口存储空间优化,提升处理性能:

针对SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始数据时存在的数据冗余问题,对保存原始数据的窗口进行重构,优化存储,使其存储空间大大降低。

3、支持Apache Kafka 2.4,并集成社区最新能力:

增强的压缩算法,controller处理逻辑优化,broker启动优化等;

支持可视化管理界面极大提高运维效率,一键进行分区迁移和扩容等操作;

增强监控告警,实时管理Kafka服务、Topic消费生产状态;

支持基于磁盘容量、分区数分区的自动分配策略,防止数据倾斜;

支持用户连接数限制;支持对用户操作进行审计。

2.3 数据仓库

1、面向大数据集提供更快的SQL分析能力,包括对HetuEngine、Hive、Spark和CarbonData的提升:

HetuEngine支持动态过滤、算子下推、动态分区裁剪、Bloom Filter/Star Tree Index/启发式索引、SMILE传输协议优化、并行查询、基于历史查询性能的SQL优化等特性,性能超越Impala 30%,交互式查询超越Hive 3倍;

CarbonData统一索引语法,新增index server,解决Driver侧索引内存太大问题;索引进行预加载,数据入口后即自动预加载,解决首次查询慢问题;新增二级索引和Geo索引,提升查询性能;

Hive支持Tez引擎,大大提升了任务运行效率,TPC-DS性能提升50%以上;

Hive支持LLAP,提升交互式查询场景的性能;

Spark SQL优化:动态分区裁剪、distinct下推、启发式join reorder、runtime filter、scalar subquery合并等特性;

Spark新增内置高阶函数,可以直接操作复杂类型,并具备比UDF更好的性能。

2、支持事务ACID,提供T+0贴源分析的能力:

Hive支持ACID,基于事务表支持数据的INSERT/UPDATE/DELETE/MERGE语句,拓宽业务使用场景;

Hive支持增强语法语句、物化视图、CBO等特性;

CarbonData支持统一MV语法,新增支持时序数据,支持Parquet/ORC表格;

CarbonData支持DB实时数据同步,只追加Delta文件,IO冲击小。对比“文件重写”,更新时间缩短50%-70%;多个Delta文件自动合并,避免小文件问题;

CarbonData支持一张表内混合格式:CSV、TXT、JSON、Parquet、ORC、CarbonFile。

3、交互式查询数据虚拟化引擎的功能与性能全面提升:

全面兼容SQL-92、SQL:2003;

提供跨域查询能力;

动态资源管理,基于YARN进行动态资源管理,支持多租户隔离和并发处理,支持Capacity/Superior多种调度器。

2.4 NoSQL与多模计算

HBase升级到了2.2.3版本,Phoenix升级至5.0.0版本,并相互适配;

Hbase完善了AMv2,通过降低启动时对ZK的依赖,缩短启动时长以及故障恢复时间;支持Netty RPC,提升请求的并发处理能力;提供RS Group能力,通过Group隔离更好的支持多租户能力。

2.5 全文检索

Elasticsearch通过提前跳过大量在早期被识别为不会在Top-K结果集中的文档来剪枝,提供更快的Top-K查询性能。提供了功能完备的 high-level REST client,新增易用的search_as_you_type类型,该字段会将同一个字段进行多种类型的分词,满足用户的多样性查询需求。

2.6 数据安全

1、新增组件Apache Ranger提供一个集中式框架进行审计,认证和授权功能:

更好的细粒度访问控制;动态行过滤、动态列脱敏、基于属性的访问控制、支持大量组件对接,支持用户、租户、数据库、表、记录等不同组件不同维度细粒度访问控制;

更丰富的策略控制,可以采用Allow/Deny constructs、自定义策略条件/上下文增强器,基于时间的策略,Atlas集成(用于基于标签的策略)等策略;

组件审计日志统一管理;

安全集群、非安全集群统一使用,并添加初始权限,增加易用性。

2、ZooKeeper升级到了3.5.6版本,安全功能增强:

支持安全端到端通信加密,保证数据传输可靠性;

支持对用户操作进行审计;

支持对服务ZNode进行配额设置,防止无限制使用ZooKeeper资源,导致过载。

2.7 集群管理

1、支持云化部署,提供集群快速发放,弹性伸缩能力,主动运维:

一键式集群申请,半小时级发放;

支持规则和时间计划两种弹性伸缩的策略;

主动运维,故障响应最快时间5分钟。

2、运维管理能力增强:

提供滚动升级能力,不中断业务,保证业务连续性;

提供客户端管理能力,方便跟踪客户端地址,避免升级遗漏;

提供配置历史跟踪能力,记录配置修改记录、过期配置展示、非默认值展示能力;

支持堆栈采集能力,提高进程异常等问题定位效率;

提供维护模式,减少变更操作对运维人员的干扰。

2.8 超大集群能力

1、支持超大规模集群,单集群节点数可达2万+:

改造运维管理架构,利用成熟的分布式组件技术,将原来的集约主从模式调整成可弹性伸缩的分布式模式,实现超大集群的管理运维能力;

深度优化Superior调度器,Container的调度速率达到35万个/s,集群资源利用率达到98%以上,超过开源Capacity的能力100%,具备超大规模调度能力。

2、支持单集群跨AZ,解决超大集群可靠性问题:

提供全组件单集群跨AZ高可靠,单机房故障,核心数据和计算任务不受影响;

优化Yarn任务调度能力,减少不同AZ间网络开销。

3、全组件支持IPv6协议,解决超大集群持续演进过程中的网络升级扩容的要求:

全组件支持IPv6能力,满足国内各行业对IPv6升级改造的进程要求;

通过对通信端的验证和对数据加密保护,使数据在IPv6网络上传输更安全。

4、支持异构混部,解决超大规模集群建设中设备利旧的问题:

支持鲲鹏&X86混合部署;

支持混搭操作系统(RedHat/SUSE/CentOS/Euler)。

三、总结

FusionInsight 8.0 MRS在6月30日发布全新版本,提供2万超大规模集群能力;HetuEngine提供了高性能交互式查询;支持Flink On Hive,增强批流融合能力;Hive支持Tez引擎,大大提升了任务运行效率;CarbonData提供丰富的索引和物化视图,提升Spark/Hive性能;支持事务ACID,实现全量数据T+0入湖;新增Ranger组件,增强细粒度安全控制,以及提供全新的大数据组件版本,大幅提高政府、金融、运营商、大企业等各行业大数据应用场景能力。

十多年来FusionInsight 致力于为全球60+国家地区、3000+政企客户构建企业级智能数据湖,结合平台+生态战略,与800+商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业,在政企数字化转型中,释放数据价值,助力政企客户业务高速增长!

扫码参与FusionInsight问卷调查

数据平台 数据湖探索 DLI 大数据 数据库

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:MyCat权威指南阅读笔记(进阶篇)
下一篇:作为开发者,你都听产品经理的,做的累不累?
相关文章