快速拼合表格和分离表格的方式有哪些?
691
2022-05-30
随着5G和AIoT技术的发展,数据量指数级增长,新的数据业务层出不穷。作为数字化时代的先行者 ,互联网企业利用大数据平台进行客户体验提升、网络优化、精准营销等业务, “流量变现”带来了丰厚的经济效益,同时海量数据的高速有效处理分析问题也日益凸显,为应对数据量的激增,企业需要通过不断扩容带宽、CDN,增加计算、存储等资源,持续大量的成本投入成为制约企业飞速发展的绊脚石,急需一剂降本增效良方来打破桎梏。
传统大数据中心建设采用存算一体的架构建设,在进行扩容时需按一定的存算配比同步扩充,造成了大量的资源冗余,利用率偏低。领先的互联网企业已经开始使用大数据存算分离解决方案实现资源价值最大化,存储与计算资源全面云化、灵活配置、弹性伸缩,降本增效。下面一起来看看美图的优秀实践:
作为国内领先的互联网企业,美图围绕着“美”创造了美图秀秀、美颜相机、美拍、美图手机等一系列软硬件产品,让用户轻松实现影像变美。自2008年10月成立以来,迅速扩张,海量数据存储+准实时处理已达XXPB级,每天百亿接口调用。
但在持续高速发展的背后,数据量指数级激增,海量数据存储、处理、分析等问题日益凸显,何快速通过云化,实现资源利用率提升,降本增效,打破传统系统建设的数据孤岛,成为企业快速发展的关键所在。
存算分离+多样性算力助力美图降本增效
在美图原有的大数据中心中,计算和存储资源紧密耦合。在这样的集群中,当存储空间或计算资源不足时,只能通过一定比例对两者同时扩容。例如在平常时间节点,存储与计算的资源使用率维持在80%,当达到夜间18:00-22:00或节假日的高峰期时,用户的集中使用使得新增数据迎来一个波峰 ,原有存储空间就满足不了业务的发展需求,此时需进行扩容操作,计算与存储同步扩容的结果导致存储资源使用率维持在高点,而计算资源利用率不足50%,新扩容的计算资源就被浪费了,经济效率低。
美图采用了华为云大数据存算分离方案,对计算与存储资源进行解耦,存储不足扩存储,计算不足扩计算,面对数据激增的浪涌弹性发放,资源灵活部署,计算存储资源利用率整体提升40%。
存储方面,美图原有大数据中心使用原生的Hadoop架构存储数据,1:3的备份方式使得大量存储空间被占用,华为独有的企业级EC可将副本率降低至1:1.09,数据存储容量由原来的20+PB降低至10+PB,存储资源优化提升50%。
计算方面,华为云大数据存算分离方案支持多样性算力,包括裸金属服务器、云服务器、容器和Serverless在内的多种粒度的算力支持,具备强大的多核处理优势,对OBS存储做了针对性的高并发能力优化,同时还对大数据引擎、操作系统层面及JDK等方面进行优化,使得分布式大数据处理性能提升20%。面对手机端、APP、不同区域不同部门的使用场景均能轻松应对,计算资源优化超过10%。
高效的存算分离架构,领先的存储技术和计算技术,成为了智能数据湖降本增效的三大利器。
“0改造”平滑迁移上云 异构兼容降成本
美图原本采用自建IDC(数据中心),但受限于物理介质的影响,IDC机房的空间有限,无法做到快速的扩容,难以支撑业务波峰波谷,在下午18:30的业务高峰期,全国20W终端进行同时下载,高并发将导致30%的失败率。 若对老旧设备进行更新换代,不仅要考虑采购周期长的问题,高昂的采购成本更是重中之重。
基于存算分离的华为云大数据解决方案完全兼容开源原生接口,全面兼容主流的大数据生态,让企业大数据应用“0改造”平滑迁移上云。美图大数据迁移中涉及数百业务、10PB级数据、数千数据表&任务及上千节点数,华为云智能数据湖通过CDM工具批量迁移历史数据和增量数据,利用Kafka流量或者Nginx流量复制/转发实时数据,由于华为云大数据与原有IDC的平台架构不同,为了保持数据信息的一致性,还需通过HistoryServer获取所有任务执行的Stage的OutPutSize、InPutSize、RecordsNum等信息,确保云上云下执行过程完全一致。最终实现美图大数据的全面云化,支持不同芯片的混合部署,支持无限扩容,面对业务高峰再不会出现下载失败的情况。既保护了已有投资,又降低扩容的总成本。
智能数据湖消除数据孤岛 释放数据价值
作为一个坐拥十亿级客户的互联网企业,美图的应用已在16亿+的设备上进行激活,每月产生60亿张照片,月活用户数超3亿,数据总量已达10PB+。海量数据的来源各不相同,各软件设备如美图秀秀、美拍、美艳相机等,各区域各业务部门等数据流均属于自建系统模式,在原有的大数据中心无法做到数据的统一规范、统一管理,海量数据被划分在一个个集群之中,无法实现互通共享,数据重复拷贝率高,数据使用成本高、效率低。例如在美拍中生成的照片,若通过美图秀秀进行二次编辑,数据则需通过美拍系统中进行调取复制再转到美图秀秀系统中进行处理,数据在流通过程中尤为过五关斩六将,效率低下。
1. MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能够帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码0修改,业务0中断”。
MRS支持WrapperFS特性,提供OBS的翻译能力,兼容HDFS到OBS的平滑迁移,解决客户将HDFS中的数据迁移到OBS后,即可实现客户端无需修改自己的业务代码逻辑的情况下,访问存储到OBS的数据。
2. MRS基于鲲鹏处理器进行软硬件垂直优化,充分释放硬件算力,实现高性价比。
MRS支持华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,使用华为自研的操作系统EulerOS、华为JDK及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出。在性能相当情况下,端到端的大数据解决方案成本下降30%。
2020年9月23-26日,华为将于上海举办第五届HUAWEI CONNECT,携手来自全球的业界思想领袖、商业精英、技术大咖、先锋企业、生态合作伙伴、应用服务商以及开发者等,共同探讨行业数字化的发展方向,展示ICT领域的领先技术、产品和解决方案,分享成功实践,构筑开放、共赢的健康产业生态,共创行业新价值。
除了上海四天现场外,我们将开启全球直播&互动(包括主题演讲、峰会、专题演讲、线上展厅等),为您打造线下线上全场景体验之旅。敬请关注!
如果有小伙伴已经对智能数据湖做过了解,想进一步研究,当前华为云学院有EI智能数据湖系列课程,可免费学习哦→_→EI智能数据湖系列8大课程免费学,手慢无~
课程目的:提高学员在安装部署、开发支持、数据迁移及运维管理等方面的专业技能,能够具备智能数据湖的专业能力。
MapReduce 对象存储服务 OBS
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。