大数据营销的特点(大数据分析在营销中的作用)
576
2022-05-30
3.9 本 章 小 结
* RDD是Spark内部的一种数据结构,用于记录分布式数据。
* RDD的核心属性有5个,其中并发量的大小由partition决定。
* RDD由数据源或者其他RDD通过Transformation产生,会形成一张完整的依赖图。
* Transformation操作不会触发真正的计算,只有当调用了Action方法时,Spark才会根据依赖图分配集群资源进行运算。
* 窄依赖和宽依赖的主要区别点在于,子RDD的partition与父RDD的partition间的依赖关系。
* RDD持久化根据不同的场景可以采取不同的持久化级别,通常情况下使用默认的MEMORY-ONLY即可。
* Spark提供了两种受限的共享变量,即广播变量和累加器。广播变量是一个只读变量,累加器只有在Driver节点可读而其他节点只写,另外需注意使用Spark版本的API不同。
* 最后我们利用一个小实例实现了2.2节中提到的例子,并对整章介绍的各种Transformation和Action进行了重温和实战演练。建议读者自己动手多尝试,在3.8节实例的基础上尝试更多操作,理解大数据编程的特点和蕴含的逻辑。
spark 大数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。