Hadoop权威指南:大数据的存储与分析》—4.1.2 应用生命期

网友投稿 561 2022-05-30

《Hadoop权威指南:大数据的存储与分析》—4.1.2 应用生命期

4.1.2  应用生命期

YARN应用的生命期差异性很大:有几秒的短期应用,也有连续运行几天甚至几个月的长期应用。与其关注应用运行多长时间,不如按照应用到用户运行的作业之间的映射关系对应用进行分类更有意义。最简单的模型是一个用户作业对应一个应用,这也是MapReduce采取的方式。

第二种模型是,作业的每个工作流或每个用户对话(可能并无关联性)对应一个应用。这种方法要比第一种情况效率更高,因为容器可以在作业之间重用,并且有可能缓存作业之间的中间数据。Spark采取的是这种模型。

第三种模型是,多个用户共享一个长期运行的应用。这种应用通常是作为一种协调者的角色在运行。例如,Apache Slider(网址为http://slider.incubator.apache.org/)有一个长期运行的application master,主要用于启动集群上的其他应用。Impala(详见17.4.3节)也使用这种模型提供了一个代理应用,Impala守护进程通过该代理请求集群资源。由于避免了启动新application master带来的开销,一个总是开启(always on) 的application master意味着用户将获得非常低延迟的查询响应。

大数据 Hadoop

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Redis哨兵集群工作原理及架构部署(八)
下一篇:市场机会
相关文章