《Spark Streaming实时流式大数据处理实战》 —

《Spark Streaming实时流式大数据处理实战》 ——2.5 本章小结

网友投稿 619 2022-05-30

《Spark Streaming实时流式大数据处理实战》 ——2.5 本章小结

2.5 本章小结

* 在下载安装Spark时，一定要关注相应的版本，除非特殊需要，建议直接使用官方预编译好的版本。

* Spark提供了多种运行模式，除了本地测试用的模式外，生产环境中常用的主要是Standalone和基于Yarn的运行模式，本书以Standalone模式为主。

* 注意Spark集群的配置，可以参考官方文档，本书后续也会进一步介绍。

* 我们可以利用Scala-Eclipse开发Scala程序，利用Maven对依赖包进行管理和编译，如果Maven下载jar包非常慢，可以尝试配置Maven镜像库。

* 除了Eclipse，当前比较好用的IDE还有Intellij，在附录中会介绍。

* 将程序提交到Spark集群后，除了查看日志外，还要学会观察利用Spark自带的监控网页，其提供了强大的各种统计信息，对调优查看应用稳定性都有非常重要的作用。

Spark spark 大数据大数据

619 2022-05-30

《Spark Streaming实时流式大数据处理实战》 ——2.5 本章小结