案例分享MapReduce Service OMS频繁主备倒换manager界面异常

网友投稿 875 2022-05-30

【问题现象】

集群安装完成后,界面频繁上报Manager主备倒换告警,根据现场工程师反馈每间隔1-2小时会发生一次主备倒换,短暂性导致界面异常,无法进行运维监控操作,如下所示:

【可能原因】

1、httpd服务异常

2、pms资源异常

3、底层软件异常

4、其他原因等

【分析过程】

1、主备OMS发生倒换,优先看主备oms的ha.log日志《日志路径:/var/log/Bigdata/omm/oms/ha/runlog/ha.log》,一般都是因为某些oms依赖的服务出现异常,才会导致oms降备或者升主

2、从主oms的ha.log日志可以看出,2021-06-23 06:03:18主节点pms服务异常,触发主oms降备;

3、从主oms节点的pms_ha.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_ha.log》进一步确认2021-06-23 06:03:18这个时间点之前pms的运行状态,如下所示2021-06-23 06:03:18

4、接着需要看下主节点pms_script.log《日志路径:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_script.log》,查看pms脚本执行情况

5、从上面日志可以看出,2021-06-23 06:02:19主节点pms堆内存溢出,进程被kill,导致pms服务异常

6、至此,可以判断是因为pms进程(pms进程只在主节点有)内存不足导致pms服务,进一步导致主备oms倒换。

7、查看主节点pms进程内存及运行情况,执行命令:ps -ef | grep pms,如下:pms最大内存:1024mb、最小内存:1024mb(默认值)

8、执行如下命令,查看当前集群oms节点配置情况,如下可以看出,集群当前节点配置为默认配置:0-32节点

ll /opt/huawei/Bigdata/om-server/om/etc/om/omscfg/

【解决方案】

1、确认是内存过小导致后,接下来可以通过优化Manager参数,将controller和pms的内存调大,在《产品文档》搜“根据集群节点数优化Manager配置”,将节点配置参数(0-32)调整至(101-500),此时pms会被调整到8192M

具体步骤:

a.使用PuTTY,以omm用户登录主管理节点。

b.执行以下命令,切换目录。

【案例分享】MapReduce Service OMS频繁主备倒换manager界面异常

cd ${BIGDATA_HOME}/om-server/om/sbin

c.执行以下命令查看当前集群Manager相关配置。

sh oms_config_info.sh -q

d.执行以下命令指定当前集群的节点数。

命令格式:sh oms_config_info.sh -s 节点数

例如:

sh oms_config_info.sh -s 1000

根据界面提示,输入“y”:

The following configurations will be modified: Module Parameter Current Target Controller controller.Xmx 4096m => 16384m Controller controller.Xms 1024m => 8192m Controller controller.node.heartbeat.error.threshold 30000 => 60000 Pms pms.mem 8192m => 10240m Do you really want to do this operation? (y/n):

界面提示以下信息表示配置更新成功

配置更新过程中,OMS会自动重启。

相近数量的节点规模对应的Manager相关配置是通用的,例如100节点变为101节点,并没有新的配置项需要刷新。

2、执行完成后,观察一段时间看是否还会倒换

EI企业智能 FusionInsight MapReduce 云容灾

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:快递鸟即时查询api接口功能详解攻略
下一篇:Vue3.0学习入门之快速开发环境搭建
相关文章