《Spark Streaming实时流式大数据处理实战》 ——2.5 本 章 小 结

网友投稿 541 2022-05-30

2.5  本 章 小 结

* 在下载安装Spark时,一定要关注相应的版本,除非特殊需要,建议直接使用官方预编译好的版本。

* Spark提供了多种运行模式,除了本地测试用的模式外,生产环境中常用的主要是Standalone和基于Yarn的运行模式,本书以Standalone模式为主。

* 注意Spark集群的配置,可以参考官方文档,本书后续也会进一步介绍。

* 我们可以利用Scala-Eclipse开发Scala程序,利用Maven对依赖包进行管理和编译,如果Maven下载jar包非常慢,可以尝试配置Maven镜像库。

* 除了Eclipse,当前比较好用的IDE还有Intellij,在附录中会介绍。

* 将程序提交到Spark集群后,除了查看日志外,还要学会观察利用Spark自带的监控网页,其提供了强大的各种统计信息,对调优查看应用稳定性都有非常重要的作用。

《Spark Streaming实时流式大数据处理实战》 ——2.5 本 章 小 结

Spark spark 大数据 大数据

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【安装指南】HUAWEI Camera 200高清摄像机 控制线缆、线缆连接器及接线关系说明
下一篇:华为方舟编译器开源官网正式上线
相关文章