GaussDB案例:集群只读10分钟后自动恢复

网友投稿 586 2022-05-28

问题描述:

GaussDB案例:集群只读10分钟后自动恢复

某局点DWS集群DB出现只读异常,十分钟后自动恢复,后又出现集群只读自动恢复。

问题分析:

1. 集群只读后磁盘自动下降恢复,只有三种场景可能只读后自恢复:

临时文件下盘

临时表导入倾斜或数据量过大

有create table as select语句导入倾斜或数据量过大

2. 根据cm_agent日志,发现集群只读时,主备dn 6439和6440所在磁盘同步上涨,排除临时文件下盘场景

图1. dn_6439 磁盘使用率cm_agent日志

图2. dn_6440 磁盘使用率cm_agent日志

3. 集群只读时,会杀掉当前所有语句,并在dn日志打印,排查dn日志只读时间点被杀的语句,没有create table as select语句,排除该场景

图3. 业务sql

4. 查看其他节点cm_agent日志,发现磁盘空间无明显变化,判断是临时表导入过程中,数据倾斜在dn_6439_6440

5. 查看cm_agent日志,监控磁盘情况,只读自恢复后,dn_6439_6440所在磁盘重新开始上涨

图4. 集群再次只读dn_6439 磁盘使用率cm_agent日志

6. 查看dn数据目录下大文件,发现单DN大于6T的有四张表

具体查找方法见:https://bbs.huaweicloud.com/forum/thread-59485-1-1.html   中2.2.4

7. 在数据库中查出这四张表,反馈给客户整改

数据仓库服务 GaussDB(DWS)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:第十七届全国大学生智能车竞赛智能视觉组规则补充说明(1)
下一篇:【精选单品】好用的企业云盘有什么?
相关文章