PDF转Excel:高效去除AI特征,实现数据自由编辑
625
2022-05-28
2.5.2 数据模型
RDD是弹性分布式数据集(Resilient Distributed Datasets)的缩写,它是Map-Reduce模型的扩展和延伸。Spark之所以能够同时支撑大数据的多个领域,在很大程度上是依靠了RDD的能力。虽然批处理、流计算、图计算和机器学习这些计算场景之间初看起来风马牛不相及,但是它们都存在一个共同的需求,那就是在并行计算阶段能够高效的共享数据。RDD的设计者们洞穿了这一现象,于是通过高效的数据共享概念和类似MapReduce的操作设计了RDD,使得它能模拟迭代式算法、关系查询、MapReduce和流式处理等多种编程模型。同时它也是一个可容错的、可并行的数据结构,可以让用户指定将数据存储到磁盘和内存中,并能控制数据的分区。同时它还提供了一些高效的编程接口操作数据集。
大数据 MapReduce
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。