探索BI系统搭建的必要性与AI技术的应用潜力
667
2022-05-28
问题描述:
某局点DWS集群DB出现只读异常,十分钟后自动恢复,后又出现集群只读自动恢复。
问题分析:
1. 集群只读后磁盘自动下降恢复,只有三种场景可能只读后自恢复:
临时文件下盘
临时表导入倾斜或数据量过大
有create table as select语句导入倾斜或数据量过大
2. 根据cm_agent日志,发现集群只读时,主备dn 6439和6440所在磁盘同步上涨,排除临时文件下盘场景
图1. dn_6439 磁盘使用率cm_agent日志
图2. dn_6440 磁盘使用率cm_agent日志
3. 集群只读时,会杀掉当前所有语句,并在dn日志打印,排查dn日志只读时间点被杀的语句,没有create table as select语句,排除该场景
图3. 业务sql
4. 查看其他节点cm_agent日志,发现磁盘空间无明显变化,判断是临时表导入过程中,数据倾斜在dn_6439_6440
5. 查看cm_agent日志,监控磁盘情况,只读自恢复后,dn_6439_6440所在磁盘重新开始上涨
图4. 集群再次只读dn_6439 磁盘使用率cm_agent日志
6. 查看dn数据目录下大文件,发现单DN大于6T的有四张表
具体查找方法见:https://bbs.huaweicloud.com/forum/thread-59485-1-1.html 中2.2.4
7. 在数据库中查出这四张表,反馈给客户整改
数据仓库服务 GaussDB(DWS)
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。