企业级数据平台构建:架构与实现》——2.5.2 数据模型

网友投稿 625 2022-05-28

2.5.2 数据模型

RDD是弹性分布式数据集(Resilient Distributed Datasets)的缩写,它是Map-Reduce模型的扩展和延伸。Spark之所以能够同时支撑大数据的多个领域,在很大程度上是依靠了RDD的能力。虽然批处理、流计算、图计算和机器学习这些计算场景之间初看起来风马牛不相及,但是它们都存在一个共同的需求,那就是在并行计算阶段能够高效的共享数据。RDD的设计者们洞穿了这一现象,于是通过高效的数据共享概念和类似MapReduce的操作设计了RDD,使得它能模拟迭代式算法、关系查询、MapReduce和流式处理等多种编程模型。同时它也是一个可容错的、可并行的数据结构,可以让用户指定将数据存储到磁盘和内存中,并能控制数据的分区。同时它还提供了一些高效的编程接口操作数据集。

《企业级大数据平台构建:架构与实现》——2.5.2 数据模型

大数据 MapReduce

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:[转]终端至上!将Vim打造成全新的集成开发环境!
下一篇:分布式搜索服务ElasticSearch(13)
相关文章