探索BI系统搭建的必要性与AI技术的应用潜力
1167
2022-05-29
前言
本章为大数据的趋势课程,主要分为两个主要部分。
第一部分为大数据时代的机遇与挑战,主要讲述什么是大数据时代,以及身处大数据时代我们面临的机遇与挑战,以便培养大数据思维。
而为了响应时代的号召,助力合作伙伴更快更好地完成智能化转型,华为提出“鲲鹏生态”战略,不断提升算力,提高数据治理能力。因此,第二部分主要介绍华为鲲鹏的解决方案,简述基于鲲鹏芯片的鲲鹏服务器、华为云鲲鹏云服务,同时简单介绍华为HCS 8.0中有关大数据和数据分析处理的常用公有云服务,并介绍华为云MRS服务的优势及应用场景。
目标
掌握什么是大数据,大数据的4v特性,以及大数据的时代需求和挑战
掌握大数据技术趋势及应用
了解华为鲲鹏解决方案
了解华为大数据解决方案
一、大数据时代的挑战与机遇
1.1 大数据时代
十九世纪六十年代,欧美和日本率先完成了资产阶级革命,他们利用电力对工业进行了升级,将人类带入电气时代。他们利用电力对工业进行改进,将人类带入电气时代。在二十世纪四十年代,计算机、通信、原子能以及生物工程获得广泛的应用。其中美国走在世界的前列,人类进入了信息时代,美国因此也称霸全球。
在当前云计算、大数据、物联网和人工智能获得了广泛的应用,并且这些技术方兴未艾,目前被称为了智能时代,同时也称为数据时代。
在大数据时代到来的时候,世界上的主要经济体他们都结合自己的国家提出来了本国的大数据战略。目前数据的开放、共享以及应用都成为这些国家的国家战略。作为中国一个发展中的国家,在大数据时代,我们也抓住了大数据的发展的机遇。
中国实施国家大数据战略
实施国家大数据战略加快建设数字中国:
要推动大数据技术产业创新发展;
要构建以数据为关键要素的数字经济;
要运用大数据提升国家治理现代水平;
要运用大数据促进保障和改善民生;
要切实保障国家数据安全。
2013年大数据第一次询问了我们政府的工作报告,并且-主席在很多场合都提出国家的大数据战略,以及加快建设数字中国的号召。
作为企业,在大数据时代我们必须要来转变自己的思维。企业是数据的生产者,我们不能够仅仅只做了数据的管理者,我们更加要利用的数据进行创新,去了创造商业价值。我们利用数据可以去驱动体验。比如说我们利用数据去对用户的浏览网页的行为进行分析,或者是对用户的购买商品的情况来进行分析,然后给用户推荐他所喜欢的商品。我们也可以用大数据进行驱动决策。比如说我们利用五十年的油田历史数据来进行综合分析来决定了油田的开采率。同时我们也可以利用大数据对我们近一年或者过往几年的数据、产品销售状况来进行分析,制定我们下一个年度的产品的生产计划。我们也可以利用数据驱动流程。每天我们有大量的数据发生碰撞,我们要去办理大量的事务,那么哪些事务是关键事务,哪些事务是有效的,我们呢可以用大数据来进行优化,提升我们的效率。
在大数据时代,那么数据就是生意,我们认为数据跟客户具有等同的价值,当你获得了一个客户的数据信息,那么你就掌握了这个用户的一些特征,能够去做精准的营销,那数据即商机。比如说我们有一些数据,比如说像交易数据,还有一些就是消费数据,我们利用这些数据可以去获得某一些商业的信息。最典型的是我们根据某个区域的人流信息来推算这个区域的繁华程度,决定是否在这个区域去建立商业。还有我们可以将数据作为了一种平台,用这种数据平台为公众提供了数据服务而获取了商业利润。在利用数据的过程中,我们让数据一直不断地流动,让数据成为了我们的流动的资产。
大数据的定义关于大数据的定义没有一个非常权威以及准确的定位。那维基百科有一个定义是,大数据是指利用常用的软件工具捕获、管理和处理数据所耗的时间超过可容忍的时间的数据集。也就是说我们利用现在传统的计算机去对大数据进行处理的时候,我们的时间可能非常之长,超过我们所能够容忍的时间。那么这么大的体量的数据我们就称为大数据。那很多机构以及研究所都给出了大数据的定义,他们通常是用大数据的特征对上数据进行定义。
通常情况下,我们对大数据进行描述呢主要包括了四个方面的特征,
第一个方面是体量巨大,这个就是说数据具有海量性。
第二个是处理的速度。这个就是说在大数据时代,我们拥有非常强的算力,能够呢快速的对数据进行分析、处理。
第三个是数据的类型繁多,在大数据时代,我们要处理的数据跟我们传统的关系型数据库里面所存储的数据它有显著的区别。我们不光要对结构化的数据呢进行处理,同时我们还要对非结构化以及半结构化的数据进行处理,因此它的类型是繁多的。
第四个方面是价值密度低。我们通常说对大数据我们要进行的数据挖掘去了挖取里面的一些知识以及信息。但是在大数据时代,海量的数据中,实际上它的价值密度是较低的,即使有大量的数据可能我们挖掘出来的信息,有用的信息也是有限的。另外还有其他一些就是著名的公司对大数据的定义进行了扩展,有些给出五位定义。
接下来我们看一看大数据处理的与传统数据处理的区别。从传统的数据库呢到大数据库,它存储的数据的容量是不断增加的。我们在大数据时代进行数据挖掘,就好比是在海里面去捕鱼,那传统的数据挖掘它就是在池塘捕鱼。我们具体用上面一张表对他们的区别进行了分析。
首先从数据的存储规模上来说,大数据处理它所要存储的数据规模是大,比如说GB、TB到PB。对传统的数据库处理是小MB的数据。再有是数据类型,大数据时代所处理的数据类型结构繁多,这个大数据的数据类型的繁多是大数据的一大特征。那传统的数据处理,他所要处理的数据结果比较单一,主要是结构化数据。
再有的是模式和数据。对我们传统的关系型数据库,它是先要定义好模式,然后再往里面逐渐的去增加数据。但对于我们大数据、数据库存储的数据,我们通常情况下没有固定的模式,我们随着数据的增加会产生模式。再有是处理的对象,大数据处理它处理的对象是大海中的鱼。我们通常利用向数据挖掘或者机器会学习的方法,去对一些未发现的鱼进行了处理,也就是说要发现一些未发现的鱼。
而传统的数据处理它只能够局限于池塘中的鱼,那么发现新知识、新规律的可能性比较小。还有就是处理工具,在大数据时代、在大数据处理的过程中,我们有很多应用场景,那没有一种大数据的产品或者是工具,它能够适合于了所有的应用场景。对于传统的数据分析,我们可以做到一刀切,就是我们利用传统的关系型数据库,对数据就能够进行的很好的分析。
目前大数据已经在蓬勃的发展,大家都知道。在我们it领域有一个摩尔定律,这个是指的是关于cpu的它的性能的定律,也就是说每十八个月那cpu的它的那个计算能力要翻一番。这个摩尔定律在2015年开始了逐渐失效,但是对于大数据来说,它也有大数据领域的摩尔定律,也就是说它每年增长的数据大概就是可以增加一倍。在我们这个时代,物联网飞速的发展,有大量的传感器设备,而这些传感器设备它每时每刻都在产生的数据,因此我们的时代数据是海量数据,数据是不断产生的。
1.2 大数据的应用领域
在当前这个时代,社交网络和物联网的飞速的发展,他们扩展的大数据的采集渠道,另外大数据的分布式存储以及分布式处理技术夯实了大数据的技术基础。另外目前深度神经网络如火如荼,并且深度神经网络有大量的落地案例,它扩展了大数据的应用,可以说目前大数据在引领着未来,并且未来是可期的。
下面我们看看大数据在哪些方面有具体的应用。目前大数据在电信、金融以及政府获得了广泛的应用,大家可以看一看了上图。这是因为电信、金融以及政府他们通过了长期的积累,具有了大量的数据,而这些海量的数据通过传统的方法是没有办法来进行分析,也没有办法进行处理的。因此他们迫切地需要采用大数据的存储以及处理技术对数据进行了分析,获得有用的价值。
从下面上图我们可以看出来,大数据在某些领域它的应用的频度。比如说我们大数据对于像中国电信这样的企业来说,它的营销分析、客户分析这个是占主要支配地位了,其实是运营管理,像供应链管理。
上面是大数据的市场分析,我们预测在2020年底,大数据行业的这个整体的市场规模将超过了一万亿。另外大数据行业细分,大数据在行业解决方案以及大数据应用方面占有了比较大的比重。下面结合一些具体的应用领域,我们给大家解释了大数据的应用。
首先是在金融领域,在金融领域有较多的应用案例,比如说花旗银行,他们早年利用了IBM的沃森机器人为用户推荐理财产品,并且获得了很好的收益。另外还有一些其他的银行,他们利用大数据去分析就是克服了贷款的风险,也就是风控的分析,他们能够要阻止了这个不良的贷款率。目前我们的金融用户是新的用户,他们需要更多的实时交互,希望更多的就是实时性的推荐及理财服务。
大数据在教育领域也有广泛的应用,比如说我们可以用大数据来进行教育改革,我们以学生为为中心,我们分析学生的心理情况,他的一些学习的习惯是不是他的考试成绩等等。另外我们还可以呢根据学生他过往的一些学习的记录,或者他一些兴趣爱好,我们可以用大数据可以给他去制定一些职业规划。大数据也可以应用到了教育了行业的考试的评价分析。比如说我们去给学生安排他个性化的学习方案,进入他学习的这样一个过程,我们不再以分数作为最重要的评价标准,我们可以以它学习的这个过程和效果作为评价标准。
接下来我们介绍大数据在政府、公共安全领域的应用,这里是一个应用的案例,公共安全场景的自动预警与联动,我们可以利用大数据自动的去进行监测,他发现某一个区域的人流量异常增多,然后我们再把这个信息发送给监管部门进行初步的定位、分析,然后得到原因,我们再把它发送给城市或者社区的监控系统的确认,最后把它上报给了上级部门进行了处理。
这是一个大数据在交通规划领域的应用。这是一个案例叫交通规划场景多维度的交通人群分析。我们可以根据某个某个区域的历史轮流进行了分析,比如说我们根据人群的年龄进行分析,我们根据这个分析结果可以去做路网的规划,我们也可以按照它的出行方式进行分析,然后去给定了交通线路的规划。
这里是大数据在清洁能源领域的一个应用。大家看一看,这个风车适用于发电的,那风车发电那跟大数据有什么关系呢?原因是这些风车它在产生电能的过程中,它需要大数据监控来帮助他去调整朝向,然后去最大化的进行产生电能。另外对于这样的风车的监控也是很有必要的。如果说风车由于一些故障倒掉了,这个对于企业来说是个很重大的损失,也可能会造成人员的伤亡。如果说我们利用大数据,用一些传感器对它的一些状态、信息进行监控,可以在早期就发问题及时的进行维修,避免发生一些故障。我们利用了大数据可以提升我们清洁能源的效率。
1.3 大数据计算任务
首先我们谈一谈我们一些就是要去计算分析处理的任务的类型。比如说有传统的IO密集型的任务,那对于这种用户,它主要涉及的是网络、磁盘以及内存,这个IO是非常密集的,它对cpu的消耗很少,它大部分的时间都是在做一些IO操作,还有就是在等待。
涉及到网络、磁盘、内存IO的任务都是lo密集型任务。
特点:CPU消耗很少,任务的大部分时间都在等待Io操作完成(因为Io的速度远远低于CPU和内存的速度)。
对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。常见的大部分任务都是IO密集型任务,比如Web应用。
IO密集型任务执行期间,99%的时间都花在lo上,花在CPU上的时间很少,因此提升网络传输效率和读写效率是重中之重。
那么第二种类型的计算,是计算密集型的任务,这种计算任务它要进行大量的计算,主要是消耗cpu资源比,所以计算圆周率他要经过了很多次的计算,还有对视频进行高清解码等等,这些任务也是计算密集型的任务。对我们早期的分布式计算以及超算,还有就是网格计算,他们处理的是计算密集型的任务。
特点:要进行大量的计算,消耗CPU资源。比如计算国周率、对视频进行高清解码等等全靠CPU的运算能力。
计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间是越长,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时数量应当等于CPU的核心数。
计算密集型任务由于主要消耗CPU资源,因此,代码运行效率至关重要。
我们看一看第三种任务数据密集型任务。数据密集型任务与计算密集型任务他有显著的区别。那传统的计算密集型用户通常是通过了运行计算的方式,这样的作业放在紧偶合的超级计算机上来进行少量计算作业,这种紧偶合来指的是这些超级计算机它共享存储,比如说内存、磁盘。一个来计算作业,他同时会占用了大量的计算节点。那数据密集型它的方式是大量独立的这个数据分析的作业,它可以分散在松耦合这个计算机集群的环境下进行的运行。这个松耦合就是说这些节点之间他们都有独一的存储,独立的cpu,cpu另外还有一个特点是每一个这个作业它又可以划分成很多个任务,这些任务它是可以分布在不同的节点上同时进行求解或者计算,最终他们的结果汇总之后是最终的结果。
数据密集型的计算,它典型应用可以分为以下三类:比如说日志分析,很多企业的这些日志,比如说用户点击流等等,这些日志。还有的软件及服务这个应用、云服务的上层应用。还有大型企业的商务智能的应用。
在大数据时代进行大数据的分析与处理,我们要了解大数据在这个大数据分析处理它主要的几种计算模式,这些计算模式也实际上都属于是我们的数据密集型。那么首先第一个是批处理技术,批处理计算针对大规模数据的批处理,那它主要有什么有mapreduce和spark等等,这些大数据产品它支持这个批处理技术。
流处理计算,针对流出数据的实时处理计算,主要有这样一些引擎,比如说像spark、storm、Flink、Flume,Flume是关于流数据采集的工具。还有就是图计算是针对了大规模图结构的数据计算,主要有一些产品,GraphX、Gelly、Giraph、PowerGraph等。
还有查询分析计算,查询分析计算是大数据分析与处理一个很重要的计算模式。比如说我们通常想在海量数据里面,在一秒钟或者是几秒钟、很短的时间之内要查询分析到了某个结果或者某个统计,它要求具有实时性,像Hive、Impala、Dremel、Cassandra等等这些大数据产品它都支持了查询分析计算。
接下来我们给大家宏观的介绍一些大数据的生态圈。这样一个生态圈,我们从底层向上给大家介绍,在大数据发展的初期,只有Hadoop一个开源的项目,Hadoop这个开源项目它包含了两个大数据组件,一个是hdfs成为了分布式文件管理系统,另外一个叫mapreduce成为了批处理计算引擎,两个组件的hdfs它是用于分布式文件系统,另外mapreduce是一个批处理的计算框架。那随着Hadoop发展以及Hadoop它应用的广泛,很多企业都希望去构建自己的大数据分析处理平台,因此他们研发了很多产品。另外YARN是一个统一的资源管理框架,它是一种纯的资源管理框架。
在我们早期的时候,比如说Hadoop 1.0的时候,实际上这个mapreduce他既负责了分布式计算,也负责了自身的资源管理调度以及任务管理调度。在Hadoop 2.0之后,他把mapreduce里面的资源管理调度、任务管理与调度把它分割出来,然后用YARN去进行统一的资源管理调度,再接着我们往上看,就是Hive的数据仓库。数据仓库就是大数据平台的数据仓库,它主要是用于汇聚数据、提供了查询分析的。
还有Mahout,Mahout是基于底层的基于mapreduce这种计算引擎的一个机器学习库,还有pig,它主要是提供的一种就是高层次抽象的一个数据分析引擎,我们通过撰写来简单的PIig这样的脚本,我们就可以实现很复杂的数据数据分析,相对mapreduce来说它的语法更加简洁。
我们再看上层,上层是计算引擎,计算引擎比如说有Tez,这是一种DAG计算框架,这种计算框架是对mapreduce的改进。他把mapreduce,map和reduce又划分成进一步的打成了很多较小的操作,并且把它们重新组合成一个有效图,减少了冗余的操作,同时也减少了对文件的读写操作。
基于内存的分布式计算框架叫spark,这个框架它可以去克服了mapreduce的一些缺陷。它能够它适合于具有迭代性质、多次迭代性质的机器学习计算。
Flink是流批一体的处理框架,它自己支持了流式计算,也支持批处理计算,这是我们目前大数据分析处理一个升起来的新星。Oozie这个是作业流调度管理的系统。比如说我们大数据的一个应用场景,它涉及到了很多就是大数据的分析与处理的流程。比如说我先要去mapreduce对数据进行预处理,预处理之后要用spark基于内存的计算方式进行机器学习、训练这个模型等等这些流程。早期的时候,我们需要手工的写脚本去配置这些程之间的依赖关系。那么现在我们可以直接用Oozie这种作业流调度管理系统去直接配置。
右边是大数据平台的数据采集工具sqoop,这个是大数据平台的ETL工具,它可以把传统关系型数据库里面的数据直接把它加载到大数据平台。Flume是流式二次数据的收集。当然还有kafka。
左边我们看有zookeeper称为动物园管理员。它主要是在大数据平台上提供分布式协调服务,很多组件都需要依赖于zookeeper,比如说我们的hdfs,还有kafka,Flink等等,他们需要zookeeper进行了分布式协调。
在最上层是Ambari,Ambari它是一种就是自动化的安装部署工具,可以很方便的部署大数据平台,这就是我们的对大数据生态圈的一个大概的介绍。
1.4 企业所面临的挑战和机遇
尽管大数据形势一片大好,但是我们的企业在大数据时代也面临了众多的挑挑战和机遇。我们先看一看传统的数据分析处理它遇到了哪些挑战。比如说我们传统的框架模型是小型机加上磁盘加上商用数据库,但是这种架构它不能够满足海量数据的日益增多,就是说我们可以去做纵向的一些扩展。比如说存储方面我们可以去加大磁盘,还有就是在内存方面,我们可以给它增加内存条,但是采用这种方式它的扩展的容量是有限的。
其次是面对海量数据,我们需要有具有了非常大的算力,目前传统模式是不足以支撑海量数据分析。具体来看有以下方面的一些挑战,比如说海量数据的高存储成本。第二个呢是数据的批处理能力不足。比如说我们给他去多加点cpu,四核、八核甚至十六核,但是它的处理能力总是有个限度。还有流式数据的处理缺失,传统的数据处理方式没有去考虑了流式数据的处理。我们在大数据时代,流数据具有巨大的商业价值,比如说我们的用户点击流,比如说用户他在浏览某个电子商务网站,它点击了某些商品,购买了某些商品,马上要利用他的什么这些点击信息去给他去推荐,就是说他所感兴趣的商品。那如果这个流式计算,但时间延迟太大,这个可能这个客户就已经走掉了,离开这个网站。还有是有限的扩展能力。
传统的这种架构它是一种就是纵向的扩展,它扩展成本非常之高,并且能力也有限。还有就是单一的数据源,因为我们传统的关系数据库它主要存储的都是结构型数据啊,但是我们在大数据时代有结构化、半结构化数据,还有数据资产对外增值的问题,因为我们传统的数据存储模式他没有去考虑数据共享以及这个数据怎么样去增值的问题。
企业具体来说有以下一些挑战:
第一个是业务部门他不清楚是否有大数据的需求。比如说在早期移动电信的市场营销部门,他们是不知道我们通过对给用户的这个使用套餐的这样一些大数据进行分析,去做精准的套餐营销,还有比如说在我们的银行这个就是贷款部门他们不知道用大数据可以去做风控,降低这个贷款的这个坏账率。
二是企业内部这个数据孤岛严重,我们通过这么多年的信息化的发展,每个企业它都有了大大小小的很多个信息系统,这些信息系统之间的数据它是不共享的,也无法把这些数据集成在一起去发挥了这个大数据的价值。
第三个方面是数据的可用性低、质量差,因为我们很多企业它尽管产生大量的数据,但是这些企业它对大数据预处理这个技术掌握了不全或者是不够重视,因此对数据的处理不够规范。那么它所保存的数据要么是不可用,比如说我们有些医院。他这个电子病历因为他没有了良好的规范,医生所记录的这个病症的情况通常是一两个词语,这个造成了他这个电子病历不可用。还有就是说对数据如何进行清洗和去噪声的这个掌握技术有限因此导致数据的质量较差,进行数据分析很难以得出有效或者是有用的决策。
第四个方面是数据相关管理的技术和架构存在问题,传统的数据库不适合于处理处理PB级别的数据,我们的mysql数据库,如果说它存储的数据的条数达到百万级,这个查询性能就非常之低了,还有传统的数据库它不适合存储半结构化或者非结构化的数据,还有是海量数据的运维要保证数据的稳定性,并且支持高并发的访问。因为传统的数据库他没有专门的去考虑这个数据的稳定性的问题,其次就是很多传统数据库对高并发的支持并不是很好。
第五个方面是数据的安全问题。数据的安全问题实际上是分两个方面,一个方面是数据的信息安全问题。因为目前尽管有大量的数据,但是很多犯罪分子他知道数据的价值,因此他们想尽千方百计的想去追踪或者是切除数据。第二个是数据的存储安全。那我们如何去保证数据的存储安全不丢失或者不损坏。我们对数据的多副本与容灾机制,这些技术也急需提高。
挑战六是大数据人才的缺乏。大数据建设的每一个环节它必须要来依赖专业的人员去完成,因此我们必须要去培养和造就一直既掌握了大数据技术,也掌握了大数据管理技术,并且有大数据应用建设经验的这样一些专业队伍。
挑战七是数据开放与隐私的权衡,这个数据的开放它是一把双刃剑,数据的开放和共享有利于这数据的创新,有利于商业模式的创新,并且会促使了很多针对数据的应用的开发。但是它也存在个问题,就是我们数据中的用户的一些隐私信息,那如何保证数据的开放,又能够去避免了隐私数据的泄露,这个也是我们企业需要考虑的问题。
大数据蓝海成为企业竞争的新焦点,大数据它能够带来巨大的商业价值,现在目前对我们企业都是有目共睹的。那大数据将成为引领一场与二十世纪的计算机革命相匹配的巨大变革。那每个领域都受到大数据的影响,包括了商业和经济,就好像是互联网改变我们的生活一样,大数据也在渐渐的在改变我们的生活,下面是一些机遇与挑战。
第一个方面是大数据挖掘成为商业分析的核心。有一些商业决策我们需要使用大数据作为了我们的工具。企业需要利用大数据分析为企业提供支撑,比如说它未来的就是产品生产的生产的类型,以及产品生产的数量等等。对于有些电子商务网站,我们可以利用大数据挖掘去提升用户的体验程度,另外去用数据去驱动自己的商业模式。
接下来我们看大数据呢成为信息技术应用的支撑点,移动互联网的、物联网、社交网络、数字家庭、电子商务,他们是新一代的信息技术应用的形态,那我们利用大数据技术可以作为支撑。帮助其改善用户的体验,帮助其进行功能创新,产生了巨大的商业价值。
机遇三:大数据成为信息产业持续增长的新引擎。
随着行业用户对大数据价值认可程度的增加,市场需求将出现井喷,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。
大数据有巨大的需求,这些需求它将会引导出比如说新的技术、新的产品、新的服务、新的业态,另外大数据它将它的需求,也将为信息产业的创建提供了一个高速增长的市场。比如说为了更加高效、可靠的去存储数据,我们要去研制呢高可靠、适合于海量数据存储的存储设备。我们为了去提升大数据的算力,我们要去研制相关的芯片或者GPU、CPU等等,这些大数据将会成为了信息产业持续增长的新的引擎。
大数据将为信息产业创建一个高增长的新市场:在硬件与集成设备领域,大数据面临的有效存储、快速读写、实时分析等挑战,将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场;在软件与服务领域,因为大数据中蕴涵的巨大价值,带来对数据快速处理和分析的迫切需求,将引发数据挖掘、商业智能市场的空前繁荣。
二、华为鲲鹏解决方案
2.1 鲲鹏简介
下面是鲲鹏计算产业的产生背景。目前计算产业呢有两个发展趋势,一个趋势是智能终端逐渐取代了传统的pc,另外一个趋势是世界目前正在进入了万物互联的时代。那传统的pc逐步向智能终端的转移,他对我们的算力有新的要求,在算力的架构方面,目前传统pc的计算架构是没有办法满足了智能终端的计算架构的。
另外,世界进入万物互联时代会产生的海量的数据。据报告2018年全球的连接设备已经超过了两百三十亿,这些海量的连接会产生海量的数据,海量的数据对新的计算力也有了新的要求,有些需要计算力支持AI智能处理。所以说这两个趋势对我们目前的算力提出了新的要求。未来计算的应用背景产生了了很大的变化,从扫地机器人到大家的传统所熟悉的一些应用场景,比如说智能手机、物联网、自动驾驶等等这些应用场景。
那应用场景的多样化又产生了数据的多样化,这些应用场景产生的数据包含文本、图片、语音的、视频等等的结构化和非结构化的数据。那么不同的计算方式对应用场景和数据的支撑具有不同的特点。比如说整型计算,它更加适合于文本处理和数据分析。浮点计算更加适合于科学计算和视频处理,新的应用场景以及数据的多样化需要我们提出了更多的计算架构,满足了企业需求。
新的应用、新的技术、新的计算架构、百亿级的互联、爆炸式的数据增长将重塑ICT产业的格局,这些新的需求将促使了新的企业的产生,以及新的计算产业链条。那我们目前涌现出来了很多提供新的计算产业的厂家。新的计算产业它包含的硬件主要包括了服务器、机器部件,还有企业存储设备。新的计算产业所包含的软件如上图所示,目前预计2023年全球计算产业的投资额,企业级应用软件会达到了四千多亿,其次是基础架构软件,可以达到了一千五百多亿。那么鲲鹏计算产业有哪些优势呢?具体来说包含在两个方面,第一个方面是中国市场进行孵化和与中国市场进行完善的行业应用。
众所周知,中国拥有ICT产业了巨大的市场,并且拥有了相对完善的产业链。鲲鹏计算产业在中国进行了顺利的发展,未来将推动了全球计算产业的发展,与全球的计算产业形成良性的循环。第二个方面是华为作为鲲鹏计算产业的成员之一,华为掌握ARM 64的计算核心以及架构技术,同时华为还掌握了ARM 8永久架构授权。华为不断地推动ARM架构的发展,以及推动了arm生态的发展。未来鲲鹏计算产业与全球的arm计算生态形成了良性互动协同的发展。
下面我们来看一看鲲鹏计算产业的整体架构,鲲鹏计算产业是基于鲲鹏处理器构建的全站IT的基础设施。另外行业应用服务它包括了pc、存储、虚拟化、操作系统、中间件、数据库、云服务、行业应用,还有关于行业应用的咨询管理服务。下面我们看一看鲲鹏计算产业的典型应用。在5G、大数据、云计算等的技术的推动下,各行各业对计算平台都提出来了关于重构海量、多样化数据的智能分析处理,以及实时分析处理的需求。
那么鲲鹏计算产业以鲲鹏的处理器为算力底座,在各行各业的数字化的进程中发挥了重要的作用。目前呢鲲鹏计算产业的主要应用场景包括智慧政府、智能驾驶、智能制造、智慧医疗、智慧教育等。诸多的产业针对鲲鹏计算产业,目前已经初步形成了了鲲鹏计算产业的生态。
上图是鲲鹏计算产业的生态图,鲲鹏生态包括开发者生态、技术生态、产业生态、伙伴生态等形式。另外鲲鹏生态也致力于与高校合作,并且进行了鲲鹏的社区建设,目的是培养人才、推广技术。
下面介绍华为以鲲鹏的处理器构建整机计算能力的发展历程,如图所示,在纽带上方是华为研发了鲲鹏芯片以及鲲鹏处理器。华为预计在2021年研发华为鲲鹏930处理器,在2023年研发了华为鲲鹏950的处理器。在蓝色纽带的下方是华为以鲲鹏的处理器所研发的整机的计算设备。华为于2016年推出了泰山第一代服务器,也就是泰山100,它给予了鲲鹏916处理器,在2019年华为推出了泰山200,也就是泰山的第二代服务器,它基于了鲲鹏的920的处理器。
华为的研发研发理念和目标主要是高性能计算、安全可靠以及开放生态。下面介绍一下鲲鹏生态的兼容的操作系统。鲲鹏生态兼容的国产操作系统包括社区发行版,有了华为的了openEuler,另外支持了国产操作系统的商用发行版本主要包括了这些操作系统,湖南麒麟、凝思以及一铭软件操作系统,还有中标麒麟以及银河麒麟。那华为鲲鹏的生态建筑的国外操作系统包含了社区发行版本有centOS和debian,商用发行版本比较有代表性的有SUSE和ubuntu。
那需要说明的是鲲鹏的生态目前兼容的操作系统仅仅是Linux作系统,并不包括windows操作系统。那具体的鲲鹏生态所兼容的操作系统,大家可以在华为的官网上进行查询。
接下来带大家了解华为云的鲲鹏云服务。华为云鲲鹏云服务是基于了鲲鹏处理器等多元的基础设施,这些是以鲲鹏处理器为基础的多元基础设施。它提供的鲲鹏、BMS、鲲鹏ECS、鲲鹏OBS等等一些鲲鹏云服务多达了六十九种,它提供的鲲鹏的专属云。鲲鹏HPC、鲲鹏大数据、鲲鹏的企业应用等等,多达了二十家解决方案。另外支持政府、金融、大企业、互联网等多行业的全场景的应用。
下面是华为云鲲鹏云服务所支持的一些典型的业务和场景。具体来说它包含了七个方面,包括了事务处理、大数据分析、数据库、科学计算、云服务、存储以及移动原生应用。那在各类业务中,开源的软件是直接可以在华为鲲鹏的平台上运行的,并且运行度较高。可以定型化的应用,将受益于鲲鹏云的高并发特性的支持,具有较好的性能。
2.2 鲲鹏大数据解决方案
鲲鹏大数据解决方案隶属于了华为大数据解决方案的之一,鲲鹏大数据解决方案,它提供了一站式高性能的大数据计算及数据安全解决方案,它主要针对公共安全行业的大数据的智能化建设中的数据安全、效率以及能耗等基础性的难题进行建设。
华为大数据解决方案还包括了BigData pro大数据解决方案,该方案采用了基于公有云的存储和计算分离架构,采用了鲲鹏算力作为计算资源,鲲鹏算力可以无限性进行弹性扩容。另外支持了原生多协议的OBS对象存储服务,并且支持统一的一站式存储数据湖。另外提供存算分离、极致弹性和极致高效的全新的公有云的大数据解决方案,大幅提升了大数据集群的资源利用率,大数据的成本小了,通用的大数据平台了可以降低了百分之五十。
那么华为大数据解决方案有哪些优势呢?它具体包括了三个方面。
第一个方面是高安全性,服务器和大数据平台是自主可控的。还有就是数据是芯片级别的加密,数据不容许私密。
另外是高性能,它比同档次的通用服务器性能可以提高了百分之三十,拥有了超强的算力,并且对高并发的应用场景可以进行优化,支持了五千多个节点的大数据呢集群。
第三个方面呢是高开放性,它兼容了ARM生态链,支持了主流的软硬件。华为建立了openlab,它提供了软件开发、应用移植、兼容认证等服务,方便企业提升自身的大数据实力。下面带大家了解了华为云大数据服务的架构。
华为云大数据服务是集数据开发、测试以及应用一体的一站式服务的架构。它底层的包含一站式大数据平台,也称为了华为云的MRS服务。一站式的大数据平台MRS服务它支持了主流的开源大数据的组件,以及华为依据了开源组件进行自身的定制的一些高性能的组件。
在上层是智能的数据湖运营平台。上层智能数据湖运营平台称为DAYU,它可以去调用下层的一站式大数据平台进行数据的处理以及分析。智能数据湖运营平台DAYU是一站式的数据运营平台,不光可以提供数据的处理、数据的建模,还有数据的应用和数据的开发。在下层还提供了相应的数据服务,比如说数据仓库,还有云搜索服务、华为云大数据服务百分百兼容开源生态,也就是说开源生态软件可以无缝的集成到了华为云大数据服务中。对第三方组件可以支持了插件化管理,是企业一站式平台。
华为云大数据服务支持了存算分离,可以用鲲鹏算力进行优化,拥有了更高的性能。下面介绍华为云的MRS的服务。
MapReduce服务(MapReduce Service,简称MRS)是一个在华为云上部署和管理Hadoop系统的服务,一键即可完成部署Hadoop集群。
MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及夭数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
下面带大家了解华为云MRS服务的优势。首先第一个方面是高性能。MRS支持自研的CarbonData存储技术,以一份数据同时支持了多种应用场景。第二个方面,通过多级索引、字典聚合、预聚合、动态Paetition、准实时数据查询等特性,提升了IO扫描和计算能力,能够实现万亿数据分析秒级响应。
支持自研的增强型的调度器superior,突破了单集群的规模瓶颈,集群的调度能力能够超过一万个节点,基于鲲鹏处理器进行了软硬件的垂直优化,充分的释放了硬件的算力,实现了高性价比。
易运维:MRS它提供了可视化大数据集群的管理平台,提高了运维效率。可视化的大数据集群的管理中的可视化界面。我们利用的可视化管理可以去了解了所提供的服务类型,还有可以掌握了集群中主机的健康状况,了解集群中主机的网络状况,以及集群中主机的磁盘的占用率。它支持了滚动的补丁的升级、可视化补丁的发布消息,无需人工干预。不停业务,保障用户集群的长期稳定。MRS服务它支持了全节点的高可用,实时进行了短信邮件通知,方便用户实时的掌握集群的动态。
下面带大家了解华为云MRS服务优势之三:高安全性。MRS支持kerberos的安全认证,实现了基于角色的权限控制以及完善的审计功能。第二个方面,RMS支持在华为云的公共资源区、资源专属区以及客户机房的HCS Online为客户配置不同物理隔离方式的一站式大数据平台,MRS还支持了集群内部的逻辑,多租户通过权限隔离,对集群的计算、存储、表格等资源按照租户来进行划分,这是集群内部的管理界面上的Kerberos安全认证以及安全认证的一些服务。
华为云MRS服务的呢优势之四:低成本。MRS它基于了多样化的云基础设施,提供了丰富的计算、存储设施的选择,也就是说MRS它既支持了通用的算力,也支持了鲲鹏算力。第二个方面是存算分离,提供了低成本的海量数据存储方案。第三个方面是灵活配置的节点与磁盘的规格。还有它支持按需扩容和兼容,支持临时集群,作业运行完就可以自动销毁集群,不浪费资源。支持自定义策略,集群可以自动弹性地伸缩,帮助用户节省了大量数据平台的闲时资源。上图是一个典型的三个节点的集群配置,它的费用大概是每小时3.43元人民币。
华为云MRS服务的应用场景,以一个具体的例子去介绍了MRS服务的应用场景,海量数据离线分析场景。
在存储方面,我们可以使用的OBS进行进行的低成本的存储。在数据分析方面,我们可以利用Hive对PB和TB的数据进行分析。另外可视化的导入工具loader可以对数据进行可视化的导入,讲数据导出到DWS,可以存放到了华为云所提供的数据仓库服务上面完成了BI分析。
下面是华为云MRS服务的典型应用场景的之二:海量数据存储的场景。海量数据场景它的主要的应用目的是对海量数据进行存储了和分析,这里以车联网的应用为例,我们需要实时性地去采集每台车辆的状态信息,我们利用kafka实现海量汽车的消息的实时导入,导入消息我们才可以采用的HBase进行PB级别的海量数据存储,并实现毫秒级的查询。另外利用spark实现了海量数据的分析,分析结果我们可以直接提交给了车联网系统,达到了准实时的响应。
下面是华为云MRS服务第三个典型的应用场景:低时延实施数据分析场景,该场景要求能够实时地对数据进行采集,并且实时对采集数据来进行分析。在实时数据采集方面,我们利用Flume的组件实现数据实时采集,Flume它提供丰富的采集和存储的连接方式。在海量数据的接入方面,我们采用kafka实现万级别的电梯数据的实时接入,并且提交给了Storm进行了实时数据的分析,最后分析结果导入到了梯联网系统中。
总结:
本章主要讲述了两个方面的内容,第一个方面的内容是大数据时代的机遇与挑战。第二个方面内容华为鲲鹏的大数据解决方案。目前大数据时代已经进入了蓬勃发展的阶段,在大数据时代,所有的生意都是数据的生意。大数据技术、分析技术已经在金融、教育、政府、交通规划、清洁能源等域有了充分的应用。但是大数据的发展也面临了诸多挑战。针对挑战,华为提出了鲲鹏战略,基于华为的鲲鹏处理器与泰山服务器,不断地提升算力,发展出华为鲲鹏计算产业,基于了华为鲲鹏计算产业发展出了华为鲲鹏生态,尤其是在大数据领域提出来了多项公有云的服务。华为致力于让合作伙伴更快更好地完成智能化转型。
本文整理自华为云社区【内容共创系列】活动,
查看活动详情:https://bbs.huaweicloud.com/blogs/314887
相关任务详情:大数据发展趋势与鲲鹏大数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。