【云小课】基础服务第88课 还在怕资源状态异常无法及时得知吗?使用云监控服务创建告警规则和通知就行啦~

网友投稿 618 2022-05-29

云监控告警提供对监控指标的告警功能,您可以对云服务的核心监控指标设置告警规则,当监控指标触发您设置的告警条件时,云监控支持以邮箱、短信、HTTP、HTTPS等方式通知您,让您在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。

云监控服务使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开启消息通知服务并选择创建的主题,这样在云服务发生异常时,云监控服务可以实时的将告警信息以广播的方式通知这些订阅者。

本节云小课以CPU使用率为例,使用云监控服务为弹性云服务器创建告警规则和通知,当弹性云服务器设置CPU使用率超过90%时触发告警。

一:创建主题

登录管理控制台。

在管理控制台左上角选择区域和项目。

选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。

在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。

在主题页面,单击“创建主题”,开始创建主题。此时将显示“创建主题”对话框。

6. 在“主题名称”框中,输入主题名称,在“显示名”框中输入相关描述,如下表所示。

参数

说明

主题名称

创建的主题名称,用户可自定义名称,规范如下:

l  只能包含字母,数字,短横线(-)和下划线(_),且必须由大写字母、小写字母或数字开头。

l  名称长度限制在1-255字符之间。

l  主题名称为主题的唯一标识,一旦创建后不能再修改主题名称。

显示名

显示名,长度限制在192字节或64个中文字。

说明:

推送邮件消息时,若未设置主题的显示名,发件人呈现为“username@example.com”,若已设置主题的显示名,发件人则呈现为“显示名”。

标签

标签由标签“键”和标签“值”组成,用于标识云资源,可对云资源进行分类和搜索。

l  键的长度最大36字符,值的长度最大43 字符,不能包含“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”,且首尾字符不能为空格。

l  每个主题最多可创建10个标签。

7. 单击“确定”,主题创建成功。新创建的主题将显示在主题列表中。主题创建成功后,系统会自动生成主题URN,主题URN是主题的唯一资源标识,不可修改。新创建的主题将显示在主题列表中。

8. 单击主题名称,可查看主题详情和主题订阅总数。

二:添加订阅

登录管理控制台。

选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。

在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。

在主题列表中,选择您要向其添加订阅者的主题,在右侧“操作”栏单击“添加订阅”。此时将显示“添加订阅”对话框。

5. 在“协议”下拉框中选择订阅终端支持的协议,在“订阅终端”输入框中输入对应的订阅终端。批量添加订阅终端时,每个终端地址占一行。添加终端详情请参考消息通知服务用户指南的“添加订阅”。

6. 单击“确定”。新增订阅将显示在页面下方的订阅列表中。

三:创建告警规则和通知

登录管理控制台。

单击“服务列表 > 云监控服务”。

单击页面左侧的“主机监控”,进入主机监控页面。此时页面上显示了当前云平台上的弹性云服务器列表。

单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。弹出创建告警规则的窗口。

依次按照如下所示配置参数。

选择类型:选择自定义创建。

监控指标:在下拉框中选择“CPU使用率”。

告警策略:CPU使用率、平均值、监控周期5分钟、连续三个周期、≥、90%。

告警级别:重要。

发送通知:是。

生效时间:00:00-23:59

主题通知:选择已创建的主题。

触发条件:依次勾选“出现告警”、“恢复正常”。

配置完成后,点击下一步。

6. 依次输入告警规则名称和描述后,点击“创建”,完成告警规则的创建。

您还可以通过以下视频进了解更详细的操作步骤:

除了CPU使用率,您还可以参考以下告警策略的最佳实践来继续创建其他服务的告警规则和通知,配置告警从此变得so easy~

表 1 告警策略最佳实践

服务

维度

指标-英文

指标-中文

告警策略最佳实践

告警级别最佳实践

弹性云服务器 ECS

/

云容器引擎 CCE-节点

弹性云服务器-云服务器

cpu_util

CPU使用率

连续3次 原始值 > 90%,带外

重要

mem_util

内存使用率

连续3次 原始值 > 80%,带内

重要

disk_util

磁盘使用率

连续3次 原始值 > 80%,带内

重要

主机监控-云服务器

cpu_usage

AGT.CPU使用率

连续3个周期 原始值 > 90%

重要

mem_usedPercent

AGT.内存使用率

连续3个周期 原始值 > 80%

重要

disk_usedPercent

AGT.磁盘使用率

连续3个周期 原始值 > 80%

重要

disk_ioUtils

AGT.磁盘I/O使用率

连续3个周期 原始值 > 90%

重要

disk_fs_rwstate

AGT.文件系统读写状态

连续2个周期 原始值 = 1

重要

disk_inodesUsedPercent

AGT.inode已使用占比

连续3个周期 原始值 > 90%

重要

裸金属服务器 BMS

BMS操作系统监控指标

cpu_usage

AGT.CPU使用率

连续3次 原始值 > 80%, 带内

重要

mem_usedPercent

AGT.内存使用率

连续3次 原始值 > 80%, 带内

重要

disk_usedPercent

AGT.磁盘使用率

连续3次 原始值 > 80%, 带内

重要

disk_ioUtils

AGT.磁盘I/O使用率

连续3次 原始值 > 90%

disk_fs_rwstate

AGT.文件系统读写状态

连续2次 原始值 = 1

disk_inodesUsedPercent

AGT.inode已使用占比

连续3次 原始值 > 90%

云手机 CPH

云手机服务器

cpu_usage

CPU使用率

连续3次 原始值 > 80%

重要

mem_usedPercent

内存使用率

连续3次 原始值 > 80%

upstream_bandwidth_usage

出网带宽使用率

连续3次 原始值 > 95%

重要

cph_sharebase_usedPercent

共享存储空间使用率

连续5次  原始值 > 95%

重要

云手机服务器-云手机

cph_cpu_usage

CPU使用率

连续5次  原始值 > 90%

重要

cph_mem_usedPercent

内存使用率

连续5次  原始值 > 90%

重要

cph_disk_usedPercent

云手机磁盘使用率

连续5次 原始值 > 90%

重要

云手机服务器-磁盘

disk_usage_read_await

平均读操作耗时

连续3次 原始值 > 50ms

重要

disk_usage_write_await

平均写操作耗时

连续3次 原始值 > 50ms

重要

云硬盘 EVS

磁盘

disk_device_write_await

平均写操作耗时

连续5次 原始值 > 500ms

紧急

连续3次 原始值 > 500ms

重要

disk_device_read_await

平均读操作耗时

连续5次 原始值 > 400ms

紧急

连续3次 原始值 > 400ms

重要

对象存储服务

桶名称

request_count_4xx

4xx错误次数

根据业务实际情况配置

紧急

request_count_5xx

5xx错误次数

连续2次,最大值 >N ; N=总请求数*(1-99.95%)并向上取整

紧急

total_request_latency

总请求平均时延

连续3次 原始值 > 阈值(见备注)

重要

upload_bytes

上传流量

连续3次 原始值>1200GB

紧急

download_bytes

下载流量

连续3次 原始值>1200GB

紧急

用户

total_request_latency

总请求平均时延

连续3次 原始值 > 阈值(见备注)

重要

upload_bytes

上传流量

连续3次 原始值>1200GB

紧急

download_bytes

下载流量

连续3次 原始值>1200GB

紧急

云存储网关 CSG

网关

cpu_util

CPU使用率

连续3次 原始值 > 95%

重要

mem_util

内存使用率

连续3次 原始值 > 90%

紧急

cache_util

缓存盘空间使用率

连续3次 原始值 > 95%

紧急

虚拟私有云 VPC

EIP/带宽

upstream_bandwidth_usage

出网带宽使用率

连续3次 原始值 > 95%

重要

虚拟专用网络 VPN

VPN连接

connection_status

VPN连接状态

连续2次 原始值 = 0

紧急

弹性负载均衡 ELB

ELB

m1_cps

并发连接数

连续3次 原始值 > xx(根据业务实际情况配置)

紧急

m4_ncps

新建连接数

连续3次 原始值 > xx(根据业务实际情况配置)

紧急

m9_abnormal_servers

异常主机数

连续1次 原始值 > 0

紧急

me_l7_http_4xx

七层协议返回码(4XX)

连续3次 原始值 > xx (根据业务实际情况)

紧急

mf_l7_http_5xx

七层协议返回码(5XX)

连续3次 原始值 > xx (根据业务实际情况)

紧急

监听器

me_l7_http_4xx

七层协议返回码(4XX)

连续3次 原始值 > xx (根据业务实际情况)

紧急

mf_l7_http_5xx

七层协议返回码(5XX)

连续3次 原始值 > xx (根据业务实际情况)

紧急

云专线

物理专线/历史专线/虚拟接口

packet_loss_rate

丢包率

连续3次 原始值 =  100%

紧急

连续3次 原始值 >  10%

重要

network_incoming_bits_rate

网络流入带宽

连续3次 原始值 = 0

紧急

network_outgoing_bits_rate

网络流出带宽

连续3次 原始值 = 0

紧急

NAT网关 NAT

NAT网关

inbound_bandwidth

入方向带宽

连续3次 原始值 >80%

重要

outbound_bandwidth

出方向带宽

连续3次 原始值 >80%

重要

snat_connection_ratio

SNAT连接数使用率

连续3次 原始值 >80%

重要

云连接 CC

域间带宽

network_incoming_bits_rate

网络流入带宽

连续5次 原始值 >=指定带宽值

紧急

network_outgoing_bits_rate

网络流出带宽

连续5次 原始值 >=指定带宽值

紧急

表 2 数据库指标告警

维度

指标-英文

指标-中文

最佳实践阈值

最佳实践告警级别

mysql

rds001_cpu_util

CPU使用率

连续3次 原始值 >80%

重要

rds002_mem_util

内存使用率

连续3次 原始值 >90%

重要

rds039_disk_util

磁盘利用率

连续3次 原始值 >80%

重要

rds072_conn_usage

连接数使用率

连续3次 原始值 > 80%

重要

rds073_replication_delay

实时复制时延

连续3次 原始值 > 600s

重要

postgresql

rds001_cpu_util

CPU使用率

连续3次 原始值 > 80%

重要

rds002_mem_util

内存使用率

连续3次 原始值 > 90%

重要

rds039_disk_util

磁盘利用率

连续3次 原始值 > 80%

重要

rds046_replication_lag

复制时延

连续3次 原始值 > 600s

重要

rds083_conn_usage

连接数使用率

连续3次 原始值 > 80%

重要

SQL Server

rds001_cpu_util

CPU使用率

连续3次 原始值 > 80%

重要

rds039_disk_util

磁盘利用率

连续3次 原始值 > 80%

重要

rds002_mem_util

内存使用率

连续3次 原始值 > 90%

重要

rds054_db_connections_in_use

使用中的数据库连接数

连续3次 原始值 > 80%

重要

DDS

mongo007_connections

当前活动连接数

连续3次  原始值>80%

重要

mongo031_cpu_usage

CPU使用率

连续3次  原始值>80%

重要

mongo035_disk_usage

磁盘利用率

连续3次  原始值>80%

重要

mongo032_mem_usage

内存使用率

连续3次  原始值>80%

重要

GaussDB

(for MySQL)

gaussdb_mysql001_cpu_util

CPU使用率

连续3次  原始值>80%

重要

gaussdb_mysql002_mem_util

内存使用率

连续3次  原始值>85%

重要

gaussdb_mysql011_innodb_buf_hit

缓冲池命中率

连续3次  原始值>90%

重要

gaussdb_mysql072_conn_usage

连接数使用率

连续3次 原始值 > 80%

重要

gaussdb_mysql077_replication_delay

数据同步延迟

连续3次 原始值>1s

重要

gaussdb_mysql104_dfv_write_delay

存储写时延

连续3次 原始值>10ms

重要

gaussdb_mysql105_dfv_read_delay

存储读时延

连续3次 原始值>10ms

重要

数据库代理

rds001_cpu_util

CPU使用率

连续3次 原始值 > 80%

重要

rds002_mem_util

内存使用率

连续3次 原始值 > 90%

重要

DRS

cpu_util

CPU使用率

连续3次 原始值 > 90%

重要

mem_util

内存使用率

连续3次 原始值 > 90%

重要

disk_util

磁盘利用率

连续3次 原始值 > 80%

重要

apply_latency

数据同步延迟

根据业务实际情况配置

重要

apply_current_state

同步状态

连续1次 原始值 = 0

重要

apply_thread_workers

同步线程数量

连续3次 原始值 > 80

重要

DDM

cpu_usage

CPU使用率

连续3次 原始值 > 90%

重要

memory_usage

内存使用率

连续3次 原始值 > 90%

重要

GaussDB(for Cassandra)

cassandra001_cpu_usage

CPU使用率

连续3次  原始值>80%

重要

cassandra002_mem_usage

内存使用率

连续3次  原始值>80%

重要

nosql005_disk_usage

磁盘利用率

连续3次  原始值>80%

重要

cassandra014_connections

活动连接数

连续3次  原始值>最大连接数的80%

重要

GaussDB(for Influx)

gemini001_cpu_usage

CPU使用率

连续3次  原始值>80%

重要

gemini002_mem_usage

内存使用率

连续3次  原始值>80%

重要

nosql005_disk_usage

磁盘利用率

重要

GaussDB(for Redis)

gemini001_cpu_usage

CPU利用率

连续3次  原始值>80%

重要

gemini002_mem_usage

内存利用率

连续3次  原始值>80%

重要

nosql005_disk_usage

磁盘利用率

连续3次  原始值>80%

重要

redis015_proxy_use_memory

proxy内存使用量

连续3次  原始值>80%

重要

redis016_proxy_used_cpu

proxy CPU利用率

连续3次  原始值>核数*80%

重要

GaussDB(for MongoDB)

nosql001_cpu_usage

CPU利用率

连续3次  原始值>80%

重要

nosql002_mem_usage

内存利用率

连续3次  原始值>80%

重要

nosql005_disk_usage

磁盘利用率

连续3次  原始值>80%

重要

mongodb007_connections_usage

当前活动连接数百分比

连续3次  原始值>80%

重要

GaussDB(for openGauss)

rds001_cpu_util

CPU使用率

连续3次  原始值>80%

重要

rds002_mem_util

内存使用率

连续3次  原始值>80%

重要

rds007_instance_disk_usage

实例数据磁盘已使用百分比

连续3次  原始值>80%

重要

表 3 数据库事件告警

服务名

事件英文名称

事件中文名称

最佳实践告警级别

RDS

activeStandBySwitchFailed

主备切换异常

紧急

abnormalReplicationStatus

复制状态异常

紧急

replicationStatusRecovered

复制状态异常已恢复

紧急

faultyDBInstance

实例运行状态异常

紧急

【云小课】基础服务第88课 还在怕资源状态异常无法及时得知吗?使用云监控服务创建告警规则和通知就行啦~

DBInstanceRecovered

实例运行状态异常已恢复

紧急

DDS

DDSAbnormalReplicationStatus

复制状态异常

紧急

DDSReplicationStatusRecovered

复制状态异常已恢复

紧急

Insufficient storage space

数据盘空间不足

紧急

The data disk space is expanded and becomes writable

数据盘空间已扩容并恢复可写

紧急

DDSFaultyDBInstance

实例运行状态异常

紧急

DDSDBInstanceRecovered

实例运行状态异常已恢复

紧急

DDSFaultyDBNode

节点运行状态异常

紧急

DDSDBNodeRecovered

节点运行状态异常已恢复

紧急

云数据库 GaussDB(for MySQL)

TaurusInstanceRunningStatusAbnormal

实例运行状态异常

紧急

TaurusInstanceRunningStatusRecovered

实例运行状态异常已恢复

紧急

TaurusNodeRunningStatusAbnormal

节点运行状态异常

紧急

TaurusNodeRunningStatusRecovered

节点运行状态异常已恢复

紧急

云数据库GaussDB(openGauss)

ProcessStatusAlarm

进程状态告警

重要

ComponentStatusAlarm

组件状态告警

重要

ClusterStatusAlarm

集群状态告警

重要

HardwareResourceAlarm

硬件资源告警

重要

StateTransitionAlarm

状态转换告警

重要

OtherAbnormalAlarm

其他异常告警

重要

GaussDBV5FaultyDBInstance

实例运行状态异常

紧急

GaussDBV5InstanceRecovered

实例运行状态异常已恢复

紧急

GaussDBV5FaultyDBNode

节点运行状态异常

紧急

GaussDBV5FaultyDBNodeRecovered

节点运行状态异常已恢复

紧急

云数据库 GaussDB NoSQL

(原GeminiDB)

Insufficient storage space

数据盘空间不足

紧急

The data disk space is expanded and becomes writable

数据盘空间已扩容并恢复可写

紧急

NoSQLFaultyDBNode

节点运行状态异常

紧急

NoSQLDBNodeRecovered

节点运行状态异常恢复

紧急

NoSQLPrimaryStandbySwitched

实例主备切换

紧急

云小课 云监控服务

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【教程】大数据平台Cloudera CDH对接OBS操作指南
下一篇:新计算 新网络 新旗舰:华为云C6实例首测
相关文章