PDF转Excel:高效去除AI特征,实现数据自由编辑
874
2022-05-29
当前,我们正在加速进入数字经济时代。根据联合国《2019年数字经济报告》的统计,数字经济的规模估计占全球生产总值的4.5%~15.5%,而中国和美国是引领世界数字经济发展的核心。而2018年,中国数字经济规模超过30万亿元、占GDP比重达34.8%,已经成为中国经济增长的新动力。数据,正在深刻改变全社会的生产和生活。
正如同石油时代有社会化油气基础设施、电力时代有社会化电力基础设施,数据作为数字经济的新能源,同样也需要社会化数据基础设施。作为一种新的社会公用资源,数据基础设施是涉及经济、技术乃至社会发展的宏大命题,如何以统一标准建设全社会统一的数据基础设施,需要各方的共同努力,当然其中也包括由华为发起的鲲鹏计算产业联盟。
在2019年11月19日的首届全球数据基础设施论坛上,中国信息通信研究院与华为合作发布了《数据基础设施白皮书2019》,同时华为面向鲲鹏计算产业启动了数据基础设施战略并推出了数据虚拟化河图引擎(HetuEngine)。河图引擎具备“一个入口、一个目录、一份数据、统一安全”四大核心能力。华为同时宣布将于2020年6月开源河图引擎内核,方便开发者定制化开发。
华为Cloud & AI产品与服务总裁侯金龙在首届全球数据基础设施论坛上表示,“大禹得河图后始见清明”,即大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业,而河图引擎的寓意则为全社会实现治“数”大业。
数字经济催生新数据基础设施
(华为Cloud & AI产品与服务总裁侯金龙)
GIV2025报告显示,到2025年,全球将产生180ZB数据。而世界经济论坛认为,到2020年全球数据总量也不过44ZB,也就是说未来5年全球数据总量要翻至少4倍。5G、IoT、自动驾驶、4K/8K视频等新技术的出现,持续推动着数据增长,相应要求强大的数据流动能力。数据已经成为数字经济时代的生产要素,而且是最核心的生产要素,数据甚至被认为已经超过石油的价值。
就像石油经济时代有“采-运-炼-储-用”一整套完成的数据基础设施一样,数字经济时代也需要面向海量数据的“采-存-算-管-用”数据基础设施。然而,自全球开始进入数字经济时代以来,海量数据虽然蕴含巨大的价值,也带来了前所未有的挑战,数据“存不下、流不动、用不好”成为了各行业数据应用最普遍的难题。
在数据“存不下”问题方面,由于当前的存储系统多为传统架构以及成本等原因,仅有不到2%的企业数据被保存。“存不下”特别表现为存储扩展性不足、存储协议类型单一、存储成本高昂。在数据“流不动”问题方面,体现在由来已久的数据孤岛难题,主要是应用孤岛、管理孤岛和地理孤岛等数据三孤岛,而产生数据三孤岛的根本原因在于企业在建设数据基础设施时会选择不同的计算资源、网络资源和存储资源来满足不同诉求,相应形成了算力墙、网络墙和介质墙等资源三堵墙。“用不好”则指的是大量数据未存储、找不到数据、谁对数据负责等问题导致数据供应不足,无法释放数据价值。
《数据基础设施白皮书2019》指出,越来越多的企业已经意识到,数据基础设施是数字经济成功的关键,而数据“存不下、流不动、用不好”等问题也促成了各行业积极构建新型数据基础设施,加速实现数据价值变现。数据基础设施的范围应涵盖接入、存储、计算、管理和数据使能五个领域,通过汇聚各方数据,提供“采-存-算-管-用”全生命周期的支撑能力,构建全方位的数据安全体系,打造开放的数据生态环境,让数据存得了、流得动、用得好,将数据资源转变为数据资产。
新的数据基础设施是传统IT基础设施的延伸,以数据为中心,服务于数据,最大化数据价值。数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,具备融合、智能、开放三大特征。
新一代数据基础设施
侯金龙在首届全球数据基础设施论坛上强调,针对当前全社会面临的数据基础设施挑战,华为希望希望对数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内更好用,数据的每比特发挥价值最大,数据的每比特成本最优!
为实现这个追求,华为打造了融合、智能、开放的数据基础设施,让数据系统从孤立走向融合,从复杂走向智能,从封闭走向开放。而在这个过程中,首先就要建立生态联盟,借助全生态的力量,共建一个能够造福整个社会的具有一致架构的公共数据基础设施,这就是华为推动建设鲲鹏计算产业生态的初衷。2019年9月19日华为基于“鲲鹏+昇腾”双引擎正式全面启航计算战略,宣布开源服务器操作系统、GaussDB OLTP单机版数据库,开放鲲鹏主板,通过硬件开放、软件开源、使能合作伙伴,推动鲲鹏计算产业生态的发展壮大。
鲲鹏计算产业是指华为与产业合作伙伴携手,共同为各行各业提供基于鲲鹏和昇腾处理器的领先IT基础设施及行业应用,包括PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务及行业应用等。华为作为鲲鹏计算产业的成员,聚焦于发展鲲鹏和昇腾处理器等核心能力,通过战略性、长周期的研发投入,吸纳优秀人才和先进技术,为产业提供绿色节能、安全可靠、极致性能的算力底座;而上下游厂商基于鲲鹏和昇腾处理器发展自有品牌的产品和解决方案,与系统软件及行业应用厂商一起打造有竞争力的差异化解决方案。
(数据基础设施架构图,来源:《数据基础设施白皮书2019》)
华为新一代数据基础设施以及推出河图引擎,进一步丰富了鲲鹏计算产业的方案和技术能力。华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,“融合、智能、开放”是华为新一代数据基础设施的重要关键词。其中,“融合”指的是基于华为在存储、数据库、大数据等技术领域的突破,打破“存储内部系统墙”、“数据库与存储链路墙”、“大数据与存储配置墙”、“数据库与大数据协同墙”这四堵墙,让数据融合更彻底,帮助客户实现TCO降低30%以上、数据访问和处理性能提升2倍、分析效率提升100%。
“智能”指的是基于AI芯片、存储和华为云的三层架构,通过云上云下结合、云上训练和云下推理,让系统越用越快、越用越省。其中,依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%;依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,TCO降低25%;结合华为云自身大规模运营经验,包括提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复等。
“开放”指的是针对找数难、取数难、用数难的问题,推出数据虚拟化引擎HetuEngine,屏蔽数据类型差异、地域差异、语法差异,让数据治理、使用简单。HetuEngine通过“一个入口、一个目录、一份数据、统一安全”四大核心能力,屏蔽数据基础设施的复杂度,让伙伴像使用“数据库”一样使用“大数据”,可复用现有的生态、工具和技能,提升开发效率2到10倍。
简单的理解,HetuEngine就是对各种数据库和大数据存储文件中数据的进一步抽象,“一个目录”可实现数据全域共享、打破数据孤岛,“一个接口”统一SQL接口、降低开发成本,“一份数据”让数据零搬迁、提升时效性,“统一安全”完整保护数据、保障安全开放。HetuEngine引擎可对底层各数据中心的RDBMS、HDFS、ElasticSearch、Redis、In-Memory DB、Kafka等进行统一的数据管理和治理,而将于2020年6月上线的openHetu为开源版的内核,即把华为HetuEngine的能力向全社会开放扩散,进而上升为全社会的数据基础设施标准,相当于智能社会数据管理的“操作系统”,向上支撑智慧政务、智慧金融、智慧交通等智能社会应用。
展望2020年,马上就要进入全球每年都要递增一个2020全年数据总量的新常态,这对数据基础设施的建设提出了极高的要求。《数据基础设施白皮书2019》指出,成长中的数据基础设施,其稳定性和先进性将深刻影响企业数字化转型的效果和进程。进一步,每个企业的数据基础设施也将融入一个全社会共享的数据基础设施,因此华为和鲲鹏计算产业生态所推进的数据基础设施无疑将对全社会数据基础设施标准产生深远影响。(文/宁川)
软件开发
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。