探索BI系统搭建的必要性与AI技术的应用潜力
590
2022-05-28
Datanode磁盘坏块告警
Datanode磁盘坏块告警
告警汇总
告警编号
告警信息
告警类型
告警等级
告警规则
版本分析
测试验证
告警汇总
CM告警汇总链接
告警编号
十进制编号:1078919239
十六进制编号:0x404F0047
告警信息
中文名称:Datanode磁盘异常
英文名称:AbnormalDiskError
代码中告警英文名称为ALM_AI_AbnormalDataInstDisk
英文附加信息:Data instance %s disk has problem, path: %s
示例:Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1
中文附加信息:数据实例%s磁盘异常, 路径:%s
示例:数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1
告警类型
ALM_AT_Fault/ALM_AT_Resume
告警等级
DWS: IMPORTANT
告警规则
在DN上执行
select sum(error_count) from pg_catalog.pg_stat_bad_block;
获取磁盘坏块数目newBadBlock,并与上次检查时的坏块数目oldBadBlock作比较。
显然坏块数目不可能小于零。
case 0: newBadBlock == 0
消除告警
newBadBlock >= 0
case 1: newBadBlock == oldBadBlock
告警临界区,维持当前告警类型不变
case 2.1: newBadBlock > oldBadBlock
坏块增加,上报告警
case 2.2: newBadBlock < oldBadBlock
DN进程重启或DN上执行了pg_stat_bad_block_clear(),而oldBadBlock尚未更新,上报告警
版本分析
C80版本
651版本
8.0版本
8.1.2版本(20210930)进行了告警功能重构,未改变告警规则。
测试验证
case分类见《告警规则》小节
考虑oldBadBlock和oldBadBlock分别取0, 1, 2, 共9种情况,可精简4种
cm_agent日志信息
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck WARNING: Bad blocks changed from 341 to 342. 2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck DEBUG1: Disk bad block alarm id 1078919239 type 0. 2021-08-09 10:39:59.583 tid=31541 Alarm LOG: Reporting alarm id 1078919239 with type 0 and info "Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1".
将告警打印至系统日志
Aug 9 10:34:19 ecs-env-3108 cm_agent: Syslog MPPDB||ecs-env-3108||127.0.0.1||||||||Database||MppDB||||SYSLOG||dn_6001||Alarm||AbnormalDiskError||Datanode磁盘异常||1||0||6||||||||||||||Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1||数据实例dn_6001磁盘异常, 路径:/home/1p1s1d/data/dnP1#012||||||||||||||||||||
EI企业智能 Gauss AP 数据仓库服务 GaussDB(DWS)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。