# 系统告警 ## 简介 ### 什么是系统告警 **系统告警**,简称告警,是监控运维模块支持的的一种告警功能,当监控系统检测到事先定义的规则或阈值(告警策略)被触发时,告警功能可按事先定义的通知模板,通知相关人员或系统管理员。告警功能的主要目的是帮助维护者和管理者及时发现并解决问题,以确保系统的可用性、性能和稳定性。主要由【告警历史】、【告警策略】和【通知模板】组成。 ### 使用场景 * **告警历史**:用于浏览并处理历史告警信息。 * **告警策略**:用于配置 Skylab 平台内节点和产品子集群的告警策略。 * **通知模板**:用于指定时间段和通知方式,通知用户集群相关信息。 ### 使用限制 目前 SkyLab 只支持将告警策略配置到子集群上,暂不支持将告警策略配置到节点上。 ## 使用指南 ### 告警历史 当您希望查看所有告警信息时,您可以进入【告警历史】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【告警历史】进入到系统告警的【告警历史】模块,如下图所示: ![](images/alarm/go-to-alarm-history.png) 在【告警历史】模块中,您可以选择待展示【待处理告警】和【告警历史(已处理告警)】。在这两部分内容中,您可以选择展示某一时间段的告警事件、搜索告警事件,同时,您也可以通过列表查看告警事件的信息,信息的内容包括:告警类型、告警级别、告警对象、告警内容、开始时间、结束时间、告警策略、操作等,如下图所示: 待处理告警: ![](images/alarm/alarm-history.png) 已处理告警: ![](images/alarm/alarm-history-processed.png) 以下是对列表字段的具体解释: * **告警类型**:告警类型分为指标告警 / 事件告警,支持筛选。 * **告警级别**:告警级别分为提示 / 重要 / 紧急。 * **告警对象**:告警对象根据告警对象类型的不同展示不同的内容,如果是节点告警,会展示节点名称和节点 IP ,如果是子集群告警,会展示集群名称和子集群名称。如果告警对象的超链接可点击,说明告警对象仍存在,可以点击超链接跳转到相应的监控界面,如果告警对象已经被删除,则不可跳转。 * **告警内容**:告警的详细描述。 * **开始时间**:告警的开始时间。 * **结束时间**:告警的结束时间,如果告警处于持续告警中,则没有结束时间,界面会展示“正在告警”。 * **告警策略**:产生本条告警对应的告警策略,如果策略仍存在,可以点击超链接跳转,如果不存在,则不可跳转。 * **操作**:可对未处理的事件告警或者已结束的指标告警添加处理备注,并完成处理。处理后的告警会进入告警历史。 **注:正在持续的指标告警不可进行处理,事件告警没有持续状态,所以可以直接处理。** ### 告警策略 当您希望定义告警的具体规则时,您可以使用【告警策略】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【告警策略】进入到系统告警的【集群概览】模块,如下图所示: ![](images/alarm/go-to-alarm-policy.png) 【告警策略】包含 4 部分内容,分别是【告警策略列表】、【新建告警策略】、【更改告警策略】和【查看告警策略详情】。 #### 告警策略列表 当您希望看到所有的告警策略及其基本信息时,你您可以使用【告警策略列表】功能。在告警策略列表中,您可以选择查看相应集群下的告警策略、搜索告警策略、复制告警策略、删除告警策略,以及修改告警策略的状态(开启/禁用)等,如下图所示: ![](images/alarm/alarm-policy-list.png) 以下是对列表字段的具体解释: * **策略名称**:告警策略的名称。 * **集群数**:告警策略绑定的子集群数,其中包括用户单独关联的子集群和用户通过关联集群下“所有子集群”关联的子集群数。 * **通知模板**:告警策略关联的通知模板。 * **适用产品**:告警策略的适用产品。 * **状态**:启用或禁用本条告警策略。 * **备注**:告警策略的备注。 * **修改时间**:告警策略的最后修改时间。 * **最后修改人**:告警策略的最后修改人。 #### 新建告警策略 当您希望新建一个告警策略时,您可以点击【新建策略】来新建一个告警策略,如下图所示: ![](images/alarm/alarm-policy-new-01.png) ![](images/alarm/alarm-policy-new-02.png) #### 更改告警策略 当您希望更改某一告警策略关联的集群、通知模板和状态时,您可以将鼠标悬浮至列表的某一行上,点击【关联集群】或【关联通知模板】,即可修改策略关联的集群和关联的通知模板;点击该告警策略的【状态开关】,即可更改该告警策略的状态(开启/禁用),如下图所示: ![](images/alarm/alarm-policy-change.png) #### 查看告警策略详情 当您希望查看某一告警策略的详情时,您可以点击该告警策略的【名称】,即可进入该告警策略的详情页查看详情。您还可以在详情页中修改告警策略,如下图所示: ![](images/alarm/alarm-policy-detail-01.png) ![](images/alarm/alarm-policy-detail-02.png) ### 通知模板 当您希望定义告警信息如何通知相应用户时,您可以使用【通知模板】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【通知模板】进入到系统告警的【通知模板】模块,如下图所示: ![](images/alarm/go-to-notification-template.png) 在【通知模板】中,您可以自定义在何时用何种方式【通知模板】包含 3 部分内容:【通知模板列表】、【新建通知模板】和【通知模板详情】。 #### 通知模板列表 当您希望查看所有的通知模板及其大致信息时,您可以使用【通知模板】功能。在【通知模板列表】功能中,您可以对通知模板进行新建、删除、复制、搜索等操作,如下图所示: ![](images/alarm/notification-template-list.png) 以下是对列表字段的具体解释: * **模板名称**:通知模板的名称。 * **接收人/组**:接收告警通知消息的用户 / 用户组,鼠标悬浮至文字描述时将展示详细说明。 * **修改时间、最后修改人**:最后修改时间和修改人。 #### 新建通知模板 当您希望新建通知模板时,您可以点击【新建通知模板】按钮,如下图所示: ![](images/alarm/notification-template-new-01.png) ![](images/alarm/notification-template-new-02.png) 以下是对字段含义的具体解释: * **通知时机**:告警触发 / 告警恢复,可多选,分别会在告警产生 / 恢复时向用户发送通知。 * **接收对象** * **类型**:分为用户 / 用户组。 * **接收人/接收组**:接收人下拉菜单会展示用户的手机号、邮箱等信息,接收组会展示用户组下的用户信息。 * **通知时间段**:告警通知生效的时间段。 * **接收渠道**:站内信 / 邮件 / 短信,可多选。 #### 通知模板详情 当您希望查看某一通知模板的详情时,您可以在【通知模板列表】中点击该通知模板的【名称】,进入【通知模板详情】界面查看通知模板详情。在【通知模板详情】中,您也可以修改通知模板详情的内容或删除模板,如下图所示: ![](images/alarm/notification-template-detail-01.png) ![](images/alarm/notification-template-detail-02.png)