探索BI系统搭建的必要性与AI技术的应用潜力
611
2022-05-29
实例进程异常告警
实例进程异常告警
告警汇总
告警编号
CN进程异常
DN进程异常
GTM进程异常
CM_SERVER进程异常
告警信息
CN进程异常
DN进程异常
GTM进程异常
CM_SERVER进程异常
告警类型
告警等级
告警规则
核心规则
补充规则
相关告警
版本分析
测试验证
告警汇总
CM告警汇总链接
告警编号
CN进程异常
十进制编号:1078919177
十六进制编号:0x404F0009
DN进程异常
十进制编号:1078919184
十六进制编号:0x404F0010
GTM进程异常
十进制编号:1078919176
十六进制编号:0x404F0008
CM_SERVER进程异常
十进制编号:1078919227
十六进制编号:0x404F003B
告警信息
CN进程异常
中文名称:Coordinator进程异常
英文名称:AbnormalCoordinatorProcess
代码中告警英文名称为ALM_AI_AbnormalCoordinatorProcess
英文附加信息:Start up coordinator instance %s failed, reason:%s
中文附加信息:数据实例%s启动失败,原因:%s
DN进程异常
中文名称:Datanode进程异常
英文名称:AbnormalDatanodeProcess
代码中告警英文名称为ALM_AI_AbnormalDatanodeProcess
英文附加信息:Start up datanode instance %s failed, reason:%s
中文附加信息:数据实例%s启动失败,原因:%s
GTM进程异常
中文名称:GTM进程异常
英文名称:AbnormalGTMProcess
代码中告警英文名称为ALM_AI_AbnormalGTMProcess
英文附加信息:Start up GTM instance %s failed, reason:%s
中文附加信息:GTM实例%s启动失败,原因:%s
CM_SERVER进程异常
中文名称:CM_SERVER进程异常
英文名称:AbnormalCMSProcess
代码中告警英文名称为ALM_AI_AbnormalCMSProcess
英文附加信息:CM_SERVER instance %s process abnormal
中文附加信息:CM_SERVER实例%s进程异常
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
DWS: IMPORTANT
告警规则
核心规则
当CN/DN/GTM/CM_SERVER实例进程不存在时,并且连续启动次数不小于3次,则触发告警;当实例进程存在时,消除告警。
部分场景有例外,见下面补充规则。
即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。
补充规则
即使实例不满足启动条件(如端口被占用),也会累积连续启动次数。
CN
下面情况可直接显示原因:
实例被手动停止
端口冲突
CN被剔除
DN
当DN磁盘损坏或者被手动停止时,不改变其告警类型。
下列情况可直接显示原因:
端口冲突
磁盘满(仅DN备和从备触发)
实例被手动停止
(与上一条规则矛盾,实际上这种情况不会触发告警)
GTM
下面情况可直接显示原因:
实例被手动停止
端口冲突
cm_server
当cm_server被手动停止时,不改变其告警类型。
相关告警
实例进程无法启动时,可能产生实例异常的告警。
1078919170 AbnormalGTMInst
1078919172 AbnormalDatanodeInst
版本分析
内核版本
FIM支持情况待补充。
DWS已支持。
测试验证
分别做如下操作:
停止CN
删除DN二进制文件,并杀死主DN进程
删除DN二进制文件,并杀死备DN进程
删除DN二进制文件,并杀死从备DN进程
停止主GTM
停止备GTM
删除cm_server二进制文件,并杀死cm_server进程
cm_agent日志如下:
# 停止CN StartStop LOG: Do not start cn because cn on current node has been manually stopped. Alarm LOG: Reporting alarm id 1078919177 with type 0 and info "Start up coordinator instance cn_5001 failed, reason:stopped by users". # 删除DN二进制文件,并杀死主DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6001 failed, reason:unknown". # 删除DN二进制文件,并杀死备DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_6006 failed, reason:unknown". # 删除DN二进制文件,并杀死从备DN进程 Alarm LOG: Reporting alarm id 1078919184 with type 0 and info "Start up datanode instance dn_3003 failed, reason:unknown". # 停止主GTM Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users". # 停止备GTM Alarm LOG: Reporting alarm id 1078919176 with type 0 and info "Start up GTM instance gtm_1001 failed, reason:stopped by users". # 删除cm_server二进制文件,并杀死cm_server进程 Alarm LOG: Reporting alarm id 1078919227 with type 0 and info "CM_SERVER instance cms_1 process abnormal".
告警信息如下:
# cn alarm 1078919177 0 0009000000000009001200070117mpp1p1s1d127.0.0.1ecs-env-3108cn_5001Start#up#coordinator#instance#cn_5001#failed,#reason:stopped#by#users#数据实例cn_5001启动失败,原因:stopped#by#users # 主dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6001Start#up#datanode#instance#dn_6001#failed,#reason:unknown#数据实例dn_6001启动失败,原因:unknown # 备dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_6006Start#up#datanode#instance#dn_6006#failed,#reason:unknown#数据实例dn_6006启动失败,原因:unknown # 从备dn alarm 1078919184 0 0009000000000009001200070096mpp1p1s1d127.0.0.1ecs-env-3108dn_3003Start#up#datanode#instance#dn_3003#failed,#reason:unknown#数据实例dn_3003启动失败,原因:unknown # gtm alarm 1078919176 0 0009000000000009001200080110mpp1p1s1d127.0.0.1ecs-env-3108gtm_1001Start#up#GTM#instance#gtm_1001#failed,#reason:stopped#by#users#GTM实例gtm_1001启动失败,原因:stopped#by#users # cm_server alarm 1078919227 0 0009000000000009001200050069mpp1p1s1d127.0.0.1ecs-env-3108cms_1CM_SERVER#instance#cms_1#process#abnormal#CM_SERVER实例cms_1进程异常
EI企业智能 Gauss AP 数据仓库服务 GaussDB(DWS)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。