PDF转Excel:高效去除AI特征,实现数据自由编辑
713
2022-05-29
1.5 本章小结
通过本章的介绍,我们了解到了在一个企业之中,如果缺乏统一的大数据平台会出现的诸多问题,例如资源浪费、数据孤岛、服务孤岛和安全隐患等。那么,如果能够化零为整,在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台,通过引入单一集群架构的概念去整合资源与服务,就能解决上述的种种问题,从而能够体现诸如资源共享、数据共享和服务共享的优势。
为了落实这样一个统一的大数据平台,我提出了一些平台应该具备的最基本的能力需求。
数据接入:在大数据的应用领域,自始至终都是围绕着数据在做文章。所以首先需要面对的是如何把海量数据接入到平台的问题。结合大数据来源多、类型杂、体量大的特征,可以得知大数据平台需要能够对接各种来源和各种类型的海量数据。
数据存储与查询:在数据接入进来之后,就需要开始考虑如何将数据持久化存储并提供数据查询能力的问题了。为了应对不同的业务场景,平台需要提供多种不同的存储媒介以满足千奇百怪的存储与查询需求,所以平台需要提供诸如关系型模型、非关系型模型以及文档模型的存储系统。
数据计算:在数据接入并存储下来之后,还需对数据进行进一步的加工、分析和挖掘,这就是数据计算的范畴了。这里包括离线批处理、实时计算、机器学习、多维分析和全文搜索等场景。
平台安全与管理:作为一个企业级大数据平台产品,安全问题自然不容小视。平台需要解决诸如用户管理、数据隔离与访问授权、访问控制和集群服务安全等问题。
平台辅助工具:大数据领域相比传统的企业及应用,在平台运维和程序研发等方面都显得更为复杂和困难。所以为了提高平台的易用性并降低平台的使用门槛,这里还需要提供一些平台的辅助工具,诸如程序开发套件、任务管理与调度系统、自助式数据探索分析系统等。
在下一章中,我们会了解到基于Hadoop生态体系去搭建一个具备上述能力的企业级大数据平台所需要用到的技术栈。
数据接入服务 DIS 大数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。