GaussDB (DWS) 集群管理系列:实例进程异常重启告警

网友投稿 611 2022-05-29

实例进程异常告警

实例进程异常告警

告警汇总

告警编号

CN进程异常

DN进程异常

GTM进程异常

CM_SERVER进程异常

告警信息

CN进程异常

DN进程异常

GTM进程异常

CM_SERVER进程异常

告警类型

告警等级

告警规则

核心规则

补充规则

相关告警

版本分析

测试验证

告警汇总

CM告警汇总链接

告警编号

CN进程异常

十进制编号:1078919177

十六进制编号:0x404F0009

DN进程异常

十进制编号:1078919184

十六进制编号:0x404F0010

GTM进程异常

十进制编号:1078919176

十六进制编号:0x404F0008

CM_SERVER进程异常

十进制编号:1078919227

十六进制编号:0x404F003B

告警信息

CN进程异常

中文名称:Coordinator进程异常

英文名称:AbnormalCoordinatorProcess

代码中告警英文名称为ALM_AI_AbnormalCoordinatorProcess

英文附加信息:Start up coordinator instance %s failed, reason:%s

中文附加信息:数据实例%s启动失败,原因:%s

DN进程异常

中文名称:Datanode进程异常

英文名称:AbnormalDatanodeProcess

代码中告警英文名称为ALM_AI_AbnormalDatanodeProcess

英文附加信息:Start up datanode instance %s failed, reason:%s

中文附加信息:数据实例%s启动失败,原因:%s

GTM进程异常

中文名称:GTM进程异常

英文名称:AbnormalGTMProcess

代码中告警英文名称为ALM_AI_AbnormalGTMProcess

英文附加信息:Start up GTM instance %s failed, reason:%s

中文附加信息:GTM实例%s启动失败,原因:%s

CM_SERVER进程异常

中文名称:CM_SERVER进程异常

英文名称:AbnormalCMSProcess

代码中告警英文名称为ALM_AI_AbnormalCMSProcess

英文附加信息:CM_SERVER instance %s process abnormal

中文附加信息:CM_SERVER实例%s进程异常

告警类型

ALM_AT_Fault/ALM_AT_Resume

告警等级

DWS: IMPORTANT

告警规则

核心规则

当CN/DN/GTM/CM_SERVER实例进程不存在时,并且连续启动次数不小于3次,则触发告警;当实例进程存在时,消除告警。

部分场景有例外,见下面补充规则。

即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。

补充规则

即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。

CN

下面情况可直接显示原因:

实例被手动停止

端口冲突

CN被剔除

DN

当DN磁盘损坏或者被手动停止时,不改变其告警类型。

下列情况可直接显示原因:

端口冲突

磁盘满(仅DN备和从备触发)

实例被手动停止

(与上一条规则矛盾,实际上这种情况不会触发告警)

GTM

下面情况可直接显示原因:

实例被手动停止

GaussDB (DWS) 集群管理系列:实例进程异常重启告警

端口冲突

cm_server

当cm_server被手动停止时,不改变其告警类型。

相关告警

实例进程无法启动时,可能产生实例异常的告警。

1078919170 AbnormalGTMInst

1078919172 AbnormalDatanodeInst

版本分析

内核版本

FIM支持情况待补充。

DWS已支持。

测试验证

分别做如下操作:

停止CN

删除DN二进制文件,并杀死主DN进程

删除DN二进制文件,并杀死备DN进程

删除DN二进制文件,并杀死从备DN进程

停止主GTM

停止备GTM

删除cm_server二进制文件,并杀死cm_server进程

cm_agent日志如下:

# 停止CN StartStop LOG: Do not start cn because cn on current node has been manually stopped. Alarm LOG: Reporting alarm id 1078919177 with type 0 and info "Start up coordinator instance cn_5001 failed, reason:stopped by users". # 删除DN二进制文件,并杀死主DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6001 failed, reason:unknown". # 删除DN二进制文件,并杀死备DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6006 failed, reason:unknown". # 删除DN二进制文件,并杀死从备DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_3003 failed, reason:unknown". # 停止主GTM Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users". # 停止备GTM Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users". # 删除cm_server二进制文件,并杀死cm_server进程 Alarm LOG: Reporting alarm id 1078919227 with type 0 and info "CM_SERVER instance cms_1 process abnormal".

告警信息如下:

# cn alarm 1078919177 0 0009000000000009001200070117mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Start#up#coordinator#instance#cn_5001#failed,#reason:stopped#by#users#数据实例cn_5001启动失败,原因:stopped#by#users # 主dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Start#up#datanode#instance#dn_6001#failed,#reason:unknown#数据实例dn_6001启动失败,原因:unknown # 备dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Start#up#datanode#instance#dn_6006#failed,#reason:unknown#数据实例dn_6006启动失败,原因:unknown # 从备dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_3003Start#up#datanode#instance#dn_3003#failed,#reason:unknown#数据实例dn_3003启动失败,原因:unknown # gtm alarm 1078919176 0 0009000000000009001200080110mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Start#up#GTM#instance#gtm_1001#failed,#reason:stopped#by#users#GTM实例gtm_1001启动失败,原因:stopped#by#users # cm_server alarm 1078919227 0 0009000000000009001200050069mpp1p1s1d127.0.0.1ecs-env-3108cms_1CM_SERVER#instance#cms_1#process#abnormal#CM_SERVER实例cms_1进程异常

EI企业智能 Gauss AP 数据仓库服务 GaussDB(DWS)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python实现哲学家就餐问题实例代码
下一篇:学习C++:异常处理
相关文章