浅谈我对数据湖Catalog的认识

网友投稿 797 2022-05-29

在大数据时代,数据已经被公认为一项重要的资产,对于拥有大量数据的企业而言,如何整合数据,用好数据,让数据本身为我们产生更大的价值,形成数据资产,将是我们不得不面临的一个课题。而这些数据想要“变现”,就要快速的从数据中获取价值,在数据新时代中,在大量晦涩数据中查找数据所花费的时间多于分析数据的时间,为了使发现数据资产变的更加简单,就需要通过数据目录让各个组织内的晦涩数据变的更加明晰,随着企业体量增大,企业也需要更智能地处理这些横跨多个系统的数据,以及拉通管理这些数据进而产生更大的价值。

什么是数据湖

数据湖是一种存储架构,本质上讲是存储,企业基于云服务,可以快速挖出一个适合自己的“湖”,完成数据的采集、存储、处理、治理,提供数据集成共享服务、高性能计算能力和大数据分析算法模型,支撑经营管理数据分析应用的全面开展,为规模化数据应用赋能。数据湖技术架构涉及了数据接入(转移)、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等。数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,这时有一个统一的数据目录来进行纳管,就显得很有必要了。

为什么不是数据池、数据海?

因为要有足够大的数据量,那么一个池子肯定存不下o(╥﹏╥)o,另外企业的数据要有边界,可以流通和交换,但更注重隐私和安全,因此也不能是数据海^_^

浅谈我对数据湖Catalog的认识

什么是元数据

这里给大家分享一句《DAMA数据管理知识体系指南》中的解释,元数据与数据的关系就像数据与自然界的关系,数据反映了真实世界的交易、事件、对象和关系,而元数据则反映了数据的交易、事件、对象和关系等。简单来说,只要能够用来描述某个数据的,都可以认为是元数据。

如果将一部电影看作数据,那么你在该电影海报上看到的所有信息,如电影名、导演、演员、制片人、电影类型等,都可以认为是这部电影的元数据。

对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。

什么是数据湖Catalog

数据湖Catalog是数据湖内统一的元数据目录,它可以帮助我们让数据资产发现变的更简单,更加快速的查找到你想要的数据,同时提供面向多引擎(Hive  Spark  DLI等)的公共元数据存储和统一元数据服务。

数据湖Catalog到底有什么价值

采集企业元数据,全面梳理企业数据信息资产

企业数据通常呈现碎片化分布,一共有多少系统,有多少个集群,各系统之间有哪些关联,各个集群的数据怎么拉通共享,数据湖Catalog可以帮助企业实现完整数据资产的整合,方便数据的交互和共享。

支撑多种分析引擎,迅速相应业务数据问题

数据湖Catalog可以对接多种分析引擎,例如Hive Spark 等。

面向数据治理,提供查询检索数据地图等元数据服务

数据湖Catalog对外提供Rest API和Thrift API接口支撑元数据服务。

统一版本管理,保障企业元数据一致性

数据湖Catalog在进行元数据管理中,要保证元数据的一致性和连续性,为上层分析引擎可靠的元数据结构,避免元数据错乱。

元数据变更监控,方便掌握数据资产变化

数据湖Catalog实现对元数据的可视化信息查看,实时监控元数据的变化,以及相关统计变化趋势。

数据湖Catalog作为系统元数据的纳管者,可以帮助企业方便、快速的把自身不同系统、不同集群的元数据接入到Catalog里,来创建自己企业级的数据资产目录,进行统一的管理和数据资产共享,进一步形成系统化数据资产的视图,从而精确把握数据获取数据,把数据转为有价资产。

EI企业智能 智能数据 数据湖治理中心 DGC

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:如何览遍“数字中国”的现在与未来?云上智慧地图来支招
下一篇:2020-12-23:如何保证MQ的高可用?
相关文章