2020年度国产数据库:openGauss
654
2022-05-29
云监控告警提供对监控指标的告警功能,您可以对云服务的核心监控指标设置告警规则,当监控指标触发您设置的告警条件时,云监控支持以邮箱、短信、HTTP、HTTPS等方式通知您,让您在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。
云监控服务使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开启消息通知服务并选择创建的主题,这样在云服务发生异常时,云监控服务可以实时的将告警信息以广播的方式通知这些订阅者。
本节云小课以CPU使用率为例,使用云监控服务为弹性云服务器创建告警规则和通知,当弹性云服务器设置CPU使用率超过90%时触发告警。
一:创建主题
登录管理控制台。
在管理控制台左上角选择区域和项目。
选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
在主题页面,单击“创建主题”,开始创建主题。此时将显示“创建主题”对话框。
6. 在“主题名称”框中,输入主题名称,在“显示名”框中输入相关描述,如下表所示。
参数
说明
主题名称
创建的主题名称,用户可自定义名称,规范如下:
l 只能包含字母,数字,短横线(-)和下划线(_),且必须由大写字母、小写字母或数字开头。
l 名称长度限制在1-255字符之间。
l 主题名称为主题的唯一标识,一旦创建后不能再修改主题名称。
显示名
显示名,长度限制在192字节或64个中文字。
说明:
推送邮件消息时,若未设置主题的显示名,发件人呈现为“username@example.com”,若已设置主题的显示名,发件人则呈现为“显示名
标签
标签由标签“键”和标签“值”组成,用于标识云资源,可对云资源进行分类和搜索。
l 键的长度最大36字符,值的长度最大43 字符,不能包含“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”,且首尾字符不能为空格。
l 每个主题最多可创建10个标签。
7. 单击“确定”,主题创建成功。新创建的主题将显示在主题列表中。主题创建成功后,系统会自动生成主题URN,主题URN是主题的唯一资源标识,不可修改。新创建的主题将显示在主题列表中。
8. 单击主题名称,可查看主题详情和主题订阅总数。
二:添加订阅
登录管理控制台。
选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
在主题列表中,选择您要向其添加订阅者的主题,在右侧“操作”栏单击“添加订阅”。此时将显示“添加订阅”对话框。
5. 在“协议”下拉框中选择订阅终端支持的协议,在“订阅终端”输入框中输入对应的订阅终端。批量添加订阅终端时,每个终端地址占一行。添加终端详情请参考消息通知服务用户指南的“添加订阅”。
6. 单击“确定”。新增订阅将显示在页面下方的订阅列表中。
三:创建告警规则和通知
登录管理控制台。
单击“服务列表 > 云监控服务”。
单击页面左侧的“主机监控”,进入主机监控页面。此时页面上显示了当前云平台上的弹性云服务器列表。
单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。弹出创建告警规则的窗口。
依次按照如下所示配置参数。
选择类型:选择自定义创建。
监控指标:在下拉框中选择“CPU使用率”。
告警策略:CPU使用率、平均值、监控周期5分钟、连续三个周期、≥、90%。
告警级别:重要。
发送通知:是。
生效时间:00:00-23:59
主题通知:选择已创建的主题。
触发条件:依次勾选“出现告警”、“恢复正常”。
配置完成后,点击下一步。
6. 依次输入告警规则名称和描述后,点击“创建”,完成告警规则的创建。
您还可以通过以下视频进了解更详细的操作步骤:
除了CPU使用率,您还可以参考以下告警策略的最佳实践来继续创建其他服务的告警规则和通知,配置告警从此变得so easy~
表 1 告警策略最佳实践
服务
维度
指标-英文
指标-中文
告警策略最佳实践
告警级别最佳实践
弹性云服务器 ECS
/
云容器引擎 CCE-节点
弹性云服务器-云服务器
cpu_util
CPU使用率
连续3次 原始值 > 90%,带外
重要
mem_util
内存使用率
连续3次 原始值 > 80%,带内
重要
disk_util
磁盘使用率
连续3次 原始值 > 80%,带内
重要
主机监控-云服务器
cpu_usage
AGT.CPU使用率
连续3个周期 原始值 > 90%
重要
mem_usedPercent
AGT.内存使用率
连续3个周期 原始值 > 80%
重要
disk_usedPercent
AGT.磁盘使用率
连续3个周期 原始值 > 80%
重要
disk_ioUtils
AGT.磁盘I/O使用率
连续3个周期 原始值 > 90%
重要
disk_fs_rwstate
AGT.文件系统读写状态
连续2个周期 原始值 = 1
重要
disk_inodesUsedPercent
AGT.inode已使用占比
连续3个周期 原始值 > 90%
重要
裸金属服务器 BMS
BMS操作系统监控指标
cpu_usage
AGT.CPU使用率
连续3次 原始值 > 80%, 带内
重要
mem_usedPercent
AGT.内存使用率
连续3次 原始值 > 80%, 带内
重要
disk_usedPercent
AGT.磁盘使用率
连续3次 原始值 > 80%, 带内
重要
disk_ioUtils
AGT.磁盘I/O使用率
连续3次 原始值 > 90%
disk_fs_rwstate
AGT.文件系统读写状态
连续2次 原始值 = 1
disk_inodesUsedPercent
AGT.inode已使用占比
连续3次 原始值 > 90%
云手机 CPH
云手机服务器
cpu_usage
CPU使用率
连续3次 原始值 > 80%
重要
mem_usedPercent
内存使用率
连续3次 原始值 > 80%
upstream_bandwidth_usage
出网带宽使用率
连续3次 原始值 > 95%
重要
cph_sharebase_usedPercent
共享存储空间使用率
连续5次 原始值 > 95%
重要
云手机服务器-云手机
cph_cpu_usage
CPU使用率
连续5次 原始值 > 90%
重要
cph_mem_usedPercent
内存使用率
连续5次 原始值 > 90%
重要
cph_disk_usedPercent
云手机磁盘使用率
连续5次 原始值 > 90%
重要
云手机服务器-磁盘
disk_usage_read_await
平均读操作耗时
连续3次 原始值 > 50ms
重要
disk_usage_write_await
平均写操作耗时
连续3次 原始值 > 50ms
重要
云硬盘 EVS
磁盘
disk_device_write_await
平均写操作耗时
连续5次 原始值 > 500ms
紧急
连续3次 原始值 > 500ms
重要
disk_device_read_await
平均读操作耗时
连续5次 原始值 > 400ms
紧急
连续3次 原始值 > 400ms
重要
对象存储服务
桶名称
request_count_4xx
4xx错误次数
根据业务实际情况配置
紧急
request_count_5xx
5xx错误次数
连续2次,最大值 >N ; N=总请求数*(1-99.95%)并向上取整
紧急
total_request_latency
总请求平均时延
连续3次 原始值 > 阈值(见备注)
重要
upload_bytes
上传流量
连续3次 原始值>1200GB
紧急
download_bytes
下载流量
连续3次 原始值>1200GB
紧急
用户
total_request_latency
总请求平均时延
连续3次 原始值 > 阈值(见备注)
重要
upload_bytes
上传流量
连续3次 原始值>1200GB
紧急
download_bytes
下载流量
连续3次 原始值>1200GB
紧急
云存储网关 CSG
网关
cpu_util
CPU使用率
连续3次 原始值 > 95%
重要
mem_util
内存使用率
连续3次 原始值 > 90%
紧急
cache_util
缓存盘空间使用率
连续3次 原始值 > 95%
紧急
虚拟私有云 VPC
EIP/带宽
upstream_bandwidth_usage
出网带宽使用率
连续3次 原始值 > 95%
重要
虚拟专用网络 VPN
VPN连接
connection_status
VPN连接状态
连续2次 原始值 = 0
紧急
弹性负载均衡 ELB
ELB
m1_cps
并发连接数
连续3次 原始值 > xx(根据业务实际情况配置)
紧急
m4_ncps
新建连接数
连续3次 原始值 > xx(根据业务实际情况配置)
紧急
m9_abnormal_servers
异常主机数
连续1次 原始值 > 0
紧急
me_l7_http_4xx
七层协议返回码(4XX)
连续3次 原始值 > xx (根据业务实际情况)
紧急
mf_l7_http_5xx
七层协议返回码(5XX)
连续3次 原始值 > xx (根据业务实际情况)
紧急
-
me_l7_http_4xx
七层协议返回码(4XX)
连续3次 原始值 > xx (根据业务实际情况)
紧急
mf_l7_http_5xx
七层协议返回码(5XX)
连续3次 原始值 > xx (根据业务实际情况)
紧急
云专线
物理专线/历史专线/虚拟接口
packet_loss_rate
丢包率
连续3次 原始值 = 100%
紧急
连续3次 原始值 > 10%
重要
network_incoming_bits_rate
网络流入带宽
连续3次 原始值 = 0
紧急
network_outgoing_bits_rate
网络流出带宽
连续3次 原始值 = 0
紧急
NAT网关 NAT
NAT网关
inbound_bandwidth
入方向带宽
连续3次 原始值 >80%
重要
outbound_bandwidth
出方向带宽
连续3次 原始值 >80%
重要
snat_connection_ratio
SNAT连接数使用率
连续3次 原始值 >80%
重要
云连接 CC
域间带宽
network_incoming_bits_rate
网络流入带宽
连续5次 原始值 >=指定带宽值
紧急
network_outgoing_bits_rate
网络流出带宽
连续5次 原始值 >=指定带宽值
紧急
表 2 数据库指标告警
维度
指标-英文
指标-中文
最佳实践阈值
最佳实践告警级别
mysql
rds001_cpu_util
CPU使用率
连续3次 原始值 >80%
重要
rds002_mem_util
内存使用率
连续3次 原始值 >90%
重要
rds039_disk_util
磁盘利用率
连续3次 原始值 >80%
重要
rds072_conn_usage
连接数使用率
连续3次 原始值 > 80%
重要
rds073_replication_delay
实时复制时延
连续3次 原始值 > 600s
重要
postgresql
rds001_cpu_util
CPU使用率
连续3次 原始值 > 80%
重要
rds002_mem_util
内存使用率
连续3次 原始值 > 90%
重要
rds039_disk_util
磁盘利用率
连续3次 原始值 > 80%
重要
rds046_replication_lag
复制时延
连续3次 原始值 > 600s
重要
rds083_conn_usage
连接数使用率
连续3次 原始值 > 80%
重要
SQL Server
rds001_cpu_util
CPU使用率
连续3次 原始值 > 80%
重要
rds039_disk_util
磁盘利用率
连续3次 原始值 > 80%
重要
rds002_mem_util
内存使用率
连续3次 原始值 > 90%
重要
rds054_db_connections_in_use
使用中的数据库连接数
连续3次 原始值 > 80%
重要
DDS
mongo007_connections
当前活动连接数
连续3次 原始值>80%
重要
mongo031_cpu_usage
CPU使用率
连续3次 原始值>80%
重要
mongo035_disk_usage
磁盘利用率
连续3次 原始值>80%
重要
mongo032_mem_usage
内存使用率
连续3次 原始值>80%
重要
GaussDB
(for MySQL)
gaussdb_mysql001_cpu_util
CPU使用率
连续3次 原始值>80%
重要
gaussdb_mysql002_mem_util
内存使用率
连续3次 原始值>85%
重要
gaussdb_mysql011_innodb_buf_hit
缓冲池命中率
连续3次 原始值>90%
重要
gaussdb_mysql072_conn_usage
连接数使用率
连续3次 原始值 > 80%
重要
gaussdb_mysql077_replication_delay
数据同步延迟
连续3次 原始值>1s
重要
gaussdb_mysql104_dfv_write_delay
存储写时延
连续3次 原始值>10ms
重要
gaussdb_mysql105_dfv_read_delay
存储读时延
连续3次 原始值>10ms
重要
数据库代理
rds001_cpu_util
CPU使用率
连续3次 原始值 > 80%
重要
rds002_mem_util
内存使用率
连续3次 原始值 > 90%
重要
DRS
cpu_util
CPU使用率
连续3次 原始值 > 90%
重要
mem_util
内存使用率
连续3次 原始值 > 90%
重要
disk_util
磁盘利用率
连续3次 原始值 > 80%
重要
apply_latency
数据同步延迟
根据业务实际情况配置
重要
apply_current_state
同步状态
连续1次 原始值 = 0
重要
apply_thread_workers
同步线程数量
连续3次 原始值 > 80
重要
DDM
cpu_usage
CPU使用率
连续3次 原始值 > 90%
重要
memory_usage
内存使用率
连续3次 原始值 > 90%
重要
GaussDB(for Cassandra)
cassandra001_cpu_usage
CPU使用率
连续3次 原始值>80%
重要
cassandra002_mem_usage
内存使用率
连续3次 原始值>80%
重要
nosql005_disk_usage
磁盘利用率
连续3次 原始值>80%
重要
cassandra014_connections
活动连接数
连续3次 原始值>最大连接数的80%
重要
GaussDB(for Influx)
gemini001_cpu_usage
CPU使用率
连续3次 原始值>80%
重要
gemini002_mem_usage
内存使用率
连续3次 原始值>80%
重要
nosql005_disk_usage
磁盘利用率
重要
GaussDB(for Redis)
gemini001_cpu_usage
CPU利用率
连续3次 原始值>80%
重要
gemini002_mem_usage
内存利用率
连续3次 原始值>80%
重要
nosql005_disk_usage
磁盘利用率
连续3次 原始值>80%
重要
redis015_proxy_use_memory
proxy内存使用量
连续3次 原始值>80%
重要
redis016_proxy_used_cpu
proxy CPU利用率
连续3次 原始值>核数*80%
重要
GaussDB(for MongoDB)
nosql001_cpu_usage
CPU利用率
连续3次 原始值>80%
重要
nosql002_mem_usage
内存利用率
连续3次 原始值>80%
重要
nosql005_disk_usage
磁盘利用率
连续3次 原始值>80%
重要
mongodb007_connections_usage
当前活动连接数百分比
连续3次 原始值>80%
重要
GaussDB(for openGauss)
rds001_cpu_util
CPU使用率
连续3次 原始值>80%
重要
rds002_mem_util
内存使用率
连续3次 原始值>80%
重要
rds007_instance_disk_usage
实例数据磁盘已使用百分比
连续3次 原始值>80%
重要
表 3 数据库事件告警
服务名
事件英文名称
事件中文名称
最佳实践告警级别
RDS
activeStandBySwitchFailed
主备切换异常
紧急
abnormalReplicationStatus
复制状态异常
紧急
replicationStatusRecovered
复制状态异常已恢复
紧急
faultyDBInstance
实例运行状态异常
紧急
DBInstanceRecovered
实例运行状态异常已恢复
紧急
DDS
DDSAbnormalReplicationStatus
复制状态异常
紧急
DDSReplicationStatusRecovered
复制状态异常已恢复
紧急
Insufficient storage space
数据盘空间不足
紧急
The data disk space is expanded and becomes writable
数据盘空间已扩容并恢复可写
紧急
DDSFaultyDBInstance
实例运行状态异常
紧急
DDSDBInstanceRecovered
实例运行状态异常已恢复
紧急
DDSFaultyDBNode
节点运行状态异常
紧急
DDSDBNodeRecovered
节点运行状态异常已恢复
紧急
云数据库 GaussDB(for MySQL)
TaurusInstanceRunningStatusAbnormal
实例运行状态异常
紧急
TaurusInstanceRunningStatusRecovered
实例运行状态异常已恢复
紧急
TaurusNodeRunningStatusAbnormal
节点运行状态异常
紧急
TaurusNodeRunningStatusRecovered
节点运行状态异常已恢复
紧急
云数据库GaussDB(openGauss)
ProcessStatusAlarm
进程状态告警
重要
ComponentStatusAlarm
组件状态告警
重要
ClusterStatusAlarm
集群状态告警
重要
HardwareResourceAlarm
硬件资源告警
重要
StateTransitionAlarm
状态转换告警
重要
OtherAbnormalAlarm
其他异常告警
重要
GaussDBV5FaultyDBInstance
实例运行状态异常
紧急
GaussDBV5InstanceRecovered
实例运行状态异常已恢复
紧急
GaussDBV5FaultyDBNode
节点运行状态异常
紧急
GaussDBV5FaultyDBNodeRecovered
节点运行状态异常已恢复
紧急
云数据库 GaussDB NoSQL
(原GeminiDB)
Insufficient storage space
数据盘空间不足
紧急
The data disk space is expanded and becomes writable
数据盘空间已扩容并恢复可写
紧急
NoSQLFaultyDBNode
节点运行状态异常
紧急
NoSQLDBNodeRecovered
节点运行状态异常恢复
紧急
NoSQLPrimaryStandbySwitched
实例主备切换
紧急
云小课 云监控服务
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。