探索BI系统搭建的必要性与AI技术的应用潜力
771
2022-05-28
目的:通过日常巡检减少系统隐患,确保系统能够长期安全、稳定、可靠地运行,降低维护成本,确保系统进行正常的业务处理。
巡检范围及内容:管控面巡检、租户面巡检。
租户面巡检项清单:
序号
巡检项ID
巡检项名称
检查标准
1
85100
CheckNTPD
检查NTPD服务
检查系统NTPD服务,如果服务开启则检查项通过,否则检查项不通过。
2
85102
检查时区一致性
检查集群内各节点时区,如果时区一致则检查通过,否则检查项不通过
3
85116
检查关键进程omm_adj的值
检查所有关键进程,如果所有关键进程omm_adj值为0,则通过,否则不通过
4
85135
检查是否存在僵尸进程
如果存在5个以上的僵尸进程,检查不通过,否则通过。
5
85208
检查磁盘使用率
检查磁盘以上指定目录(目录列表)使用率,如果使用率超过70% 报warning 超过90%则检查项不通过,集群路径下检查GAUSSHOME/PGHOST/GPHOME/GAUSSLOG/tmp/data路径的剩余空间,不满足阈值则检查项不通过
6
85300
检查集群状态
检查CM进程存在,否则检查不通过;检查fenced UDF状态,如果为down则报warning;检查集群状态,如果为Normal则检查项通过,否则检查项不通过
7
85302
检查数据库集群参数
检查CN检查共享缓冲区大小和Sem参数
主DN实例检查共享缓冲区大小和最大连接数
共享缓冲区需要大于128kB且大于shmmax且大于shmall*PAGESIZE
若存在CN,则Sem值需大于(DN最大连接数+150)/16向上取整
以上项完全满足则检查项通过,否则检查项不通过
8
85306
检查环境变量
检查节点环境变量($GAUSSHOME、$LD_LIBRARY_PATH、$PATH),检查CMS/CMA/GTM/CN/DN进程的环境变量。如果环境变量存在、配置正确且一致,进程的环境变量存在则检查项通过,否则检查项不通过
9
85307
检查gaussdb版本
检查各个节点gaussdb版本是否一致,如果版本一致则检查项通过,否则检查项不通过
10
85309
检查只读模式
检查集群中所有含CN节点上default_transaction_read_only值若为为off则检查通过,否则不通过
11
85310
检查Catchup
检查gaussdb进程堆栈是否能搜索到CatchupMain函数,若搜索不到则检查项通过,否则检查项不通过
12
85315
检查om_moitor进程
检查各个节点om_monitor进程是否存在,若各节点都存在则检查项通过,否则检查项不通过。
13
85317
检查系统表膨胀
检查系统表是否膨胀,若检查结果大于50报warning,大于100则不通过,否则检查通过
14
85320
检查各节点间互信
检查各个节点的是否互信,若有节点未互信则检查不通过,否则检查通过
15
85321
检查集群配置参数
检查集群配置类参数(ip类, Port类,路径类参数)在postgresql.conf或者pgxc_node的配置,必须和静态配置文件一致,不一致则报错。
16
85323
检查表空间
检查集群用户对tablespace父目录是否具有操作权限(读,写,执行),如果有检查通过,否则检查不通过。
17
85325
检查负载均衡状态
查询Balance状态,如果查询结果为YES则检查项通过,
如果不是Yes则报Warning,如果查询失败则检查项不通过。
18
85326
检查cm_server备机状态
如果查询结果为Standby则检查项通过,否则报出Warning
19
85329
检查DN路径
同一挂载点下,如果有多个DN实例,检查不通过。
20
85332
检查重要文件是否存在
检查conf文件、control文件,data下关键目录是否存在,若有文件存在,检查通过,否则检查不通过。
21
85345
检查gaussdb完整性
检查各个节点gaussdb的sha256值,若各节点一致则检查项通过,否则检查项不通过
22
85404
检查CN个数
检查集群CN实例个数,如果CN个数大于1,小于20则检查项通过,否则检查项不通过
23
85407
检查comm_max_datanode参数
检查最大DN数,若最大DN数小于当前DN数的2倍报warning,否则检查项通过
24
85408
检查残留两阶段事务
检查pgxc_prepared_xacts参数,如果不存在二阶段事物则检查项通过,否则检查项不通过
25
85409
检查pgxc_group表中需要重分布的个数
检查pgxc_group表中需要重分布的个数,检查结果为0则通过,否则不通过
26
85410
检查集群是否被锁
检查集群是否被锁,若集群被锁则不通过,否则检查项通过
27
85412
检查数据库连接
检查能否连接数据库,如果连接成功则检查项通过,否则检查项不通过
28
85419
检查Pooler使用量
检查Pooler使用量,若超过33000则报NG,超过28000报Warning,否则检查通过
29
85421
检查guc参数一致性
检查各CN/DN实例的guc参数是否一致,若全部一致则检查通过,否则检查不通过
30
85426
检查TD数据库中orc表date类型列
存在(TD模式数据库下的orc表,且包含date类型的列)此用法则报NG,不存在则OK。
31
85428
检查hash index语法
如果存在hash index则报NG,否则报OK
32
85429
Node group编码格式检查
存在非SQL_ASCII字符的node group名称则报NG,不存在报OK
33
85430
检查创建视图
创建视图时,如果查询语句中含有子查询,并且子查询结果查询解析&重写之后存在别名重复,检查不通过,否则检查通过。
34
85431
检查重分布残留的临时表
检查数据库中是否存在重分布残留的临时表,若不存在则检查通过,否则检查不通过
35
85435
检查是否开启TD兼容特性
检查是否开启与TD数据库相应的兼容特征,如果未开启,则检查通过,否则检查不通过
36
85437
检查单分区的记录数
如果有单分区记录数偏少的表,报warning,否则检查通过
37
85438
检查元数据一致性
检查系统表元数据是否一致,如果一致,则检查通过,否则检查不通过。
38
85439
检查pg_catalog
检查pg_catalog中是否有用户自定义的数据库对象,如果有检查不通过,否则检查通过。
39
85440
检查bcm追赶
如果存在catchcup检查不通过,否则检查通过。
40
85441
检查nodegroup
如果有installation, query, optimal的group_name,检查不通过,否则检查通过。
41
85448
检查proacl信息
pg_proc系统表中proacl中存在纯数字用户名时报NG,其他情况下报OK。
42
85449
检查内存泄漏
在各个cn和dn实例,
other_used_memory/process_used_memory大于40%检查报warning
other_used_memory/process_used_memory大于70%检查报NG
dayamic_used_memory/max_dynamic_memory大于60%检查报wanring
dynamic_used_memory/max_dynamic_memory大于100%检查报NG
dynamic_used_shrctx/dynamic_used_memory大于50%检查报warning
43
85450
检查cn和dn之间元数据一致性
检查系统表在cn和dn之间数据是否一致,一致则检查通过,否则检查不通过
44
85453
检查DDL是否能够执行成功
启动事务创建、删除schema和表,如果事务能够提交,检查通过,否则检查不通过
45
85459
检查每个实例的系统表容量
如果每一块磁盘的剩余容量大于该磁盘上所有实例的系
统表容量总和则检查项通过,否则检查项不通过
46
85461
检查用户自定义函数返回值类型
用户自定义函数包含非法返回类型检查不通过,否则通过
47
85500
检查网络通畅
检查集群内所有节点的互通性,如果各节点所有IP均可ping通则检查项通过,否则检查项不通过
48
85600
检查DN磁盘空间使用率
检查磁盘DN目录使用率,如果使用率低于90%则检查项通过,否则检查项不通过
49
85602
检查日志目录磁盘使用率
检查磁盘日志目录空间和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过
50
85603
检查临时目录磁盘使用率
检查磁盘临时目录磁盘和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过
使用FusionCare巡检:
环境信息添加请参考《华为云Stack 8.0.3 数据仓库服务(DWS)运维指南 01》指导手册使用FusionCare巡检章节进行添加。
创建巡检任务:
前提条件
(1)已登录ManageOne运维面。
(2)已完成添加环境信息和节点,参考添加环境信息和添加节点章节。
1.在ManageOne运维面,单击“首页”页面“常用链接”区域的“FusionCare(巡检) > 待巡检region名称”,进入FusionCare系统。
2.选择“健康检查 > 任务列表”,单击页面左上角的“新建”,进入健康检查配置页面。
注1:日常巡检任务策略可选立即执行、定时任务、周期任务
注2:执行巡检任务的目标客户云。管理侧:勾选"DWS”,巡检项勾选“全选”。租户侧管理节点:勾选"DWS”,巡检项勾选“全选”。
单击“立即创建”,完成巡检任务创建。待巡检完成后可界面查看本次巡检任务中的故障详情或者通过导出巡检报告对巡检结果进行分析。
其他相关操作:
(1)重新巡检:在任务详情页面的右上角,单击“重新巡检”可重新巡检本任务。
(2)删除:在任务详情页面的右上角,单击“删除”可删除本巡检任务(只可删除完成后的任务,正在进行的任务不可删除)。
问题修复案例介绍:
问题修复案例1:
报告分析中检查NTPD服务检查结果不合格,可能影响扩容/升级/节点替换失败,数据库业务可能出现报错,NTP(自动校时)服务可保证所有机器系统时间一致,从而保证数据库全局性业务和数据同步功能正常,按照处理建议:
从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称
以集群名称dwstest06312restore为例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点,对当前问题节点进行修复
1.开启ntpq服务(suse 11:service ntp start;Suse12、euleros、centos、redhat: service ntpd start),并配置校时服务器.
重新巡检或使用/usr/sbin/ntpq -p 检查ntpd服务是否开启.
重新巡检对报告进行分析
问题修复案例2:
检查只读模式未通过,分析当前集群只读模式的原因,待原因定位清楚后,需要对当前不通过进行整改,否则只读模式会导致数据库无法写入数据,影响变更和数据库功能,依照处理建议:
从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称
以集群名称wstest06312restore为例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点
ssh `hostname -i` 进入沙箱。
1.先定位集群只读原因之后,使用GUC工具关闭只读模式:gs_guc set -Z coordinator -N all -I all -c default_transaction_read_only=off;gs_guc set -Z datanode -N all -I all -c default_transaction_read_only=off
2.重启集群:cm_ctl stop && cm_ctl start
3.修复后重新巡检对报告进行分析
EI企业智能 Gauss AP 数据仓库服务 GaussDB(DWS)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。