Spark学习(14)

网友投稿 493 2022-05-28

Structured Streaming是构建在Spark SQL引擎上的流式数据处理引擎。可以使用静态RDD数据编写流式计算过程。当流数据连续不断的产生时,Spark SQL将会增量的、持续不断的处理这些数据,并将结果更新到结果集中。其核心是将流式的数据看成一张数据不断增加的数据库表,这种流式的数据处理模型类似于数据块处理模型,可以把静态数据库表的一些查询操作应用在流式计算中,Spark执行标准的SQL查询,从无边界表中获取数据。

Spark学习(14)

Spark Streaming

Spark Streaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如 Kafka、Flume、Twitter、Zero 和 TCP 套接字)进行类似map、reduce和join 的复杂操作,并将结果保存到外部文件系统、数据库中或应用到实时仪表盘上。

Spark Streaming的核心思想是将流式计算分解成一系列短小的批处理作业,这里的批处理引擎是Spark Core。也就是把Spark Streaming的输入数据按照设定的时间片(如 1 秒)分成一段一段的数据,每一段数据都转换成Spark中的RDD,然后将Spark Streaming中对 DStream的转换操作变为对Spark中的RDD的转换操作,将RDD经过操作变成的中间结果保存在内存中。

spark SQL

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【5G科普视频合集】华为码chine姐姐聊5G
下一篇:数据膨胀了?又没有空间了?一招教你解决
相关文章