系统告警
本页目录
系统告警#
简介#
什么是系统告警#
系统告警,简称告警,是监控运维模块支持的的一种告警功能,当监控系统检测到事先定义的规则或阈值(告警策略)被触发时,告警功能可按事先定义的通知模板,通知相关人员或系统管理员。告警功能的主要目的是帮助维护者和管理者及时发现并解决问题,以确保系统的可用性、性能和稳定性。主要由【告警历史】、【告警策略】和【通知模板】组成。
使用场景#
告警历史:用于浏览并处理历史告警信息。
告警策略:用于配置 Skylab 平台内节点和产品子集群的告警策略。
通知模板:用于指定时间段和通知方式,通知用户集群相关信息。
使用限制#
目前 SkyLab 只支持将告警策略配置到子集群上,暂不支持将告警策略配置到节点上。
使用指南#
告警历史#
当您希望查看所有告警信息时,您可以进入【告警历史】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【告警历史】进入到系统告警的【告警历史】模块,如下图所示:
在【告警历史】模块中,您可以选择待展示【待处理告警】和【告警历史(已处理告警)】。在这两部分内容中,您可以选择展示某一时间段的告警事件、搜索告警事件,同时,您也可以通过列表查看告警事件的信息,信息的内容包括:告警类型、告警级别、告警对象、告警内容、开始时间、结束时间、告警策略、操作等,如下图所示:
待处理告警:
已处理告警:
以下是对列表字段的具体解释:
告警类型:告警类型分为指标告警 / 事件告警,支持筛选。
告警级别:告警级别分为提示 / 重要 / 紧急。
告警对象:告警对象根据告警对象类型的不同展示不同的内容,如果是节点告警,会展示节点名称和节点 IP ,如果是子集群告警,会展示集群名称和子集群名称。如果告警对象的超链接可点击,说明告警对象仍存在,可以点击超链接跳转到相应的监控界面,如果告警对象已经被删除,则不可跳转。
告警内容:告警的详细描述。
开始时间:告警的开始时间。
结束时间:告警的结束时间,如果告警处于持续告警中,则没有结束时间,界面会展示“正在告警”。
告警策略:产生本条告警对应的告警策略,如果策略仍存在,可以点击超链接跳转,如果不存在,则不可跳转。
操作:可对未处理的事件告警或者已结束的指标告警添加处理备注,并完成处理。处理后的告警会进入告警历史。
注:正在持续的指标告警不可进行处理,事件告警没有持续状态,所以可以直接处理。
告警策略#
当您希望定义告警的具体规则时,您可以使用【告警策略】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【告警策略】进入到系统告警的【集群概览】模块,如下图所示:
【告警策略】包含 4 部分内容,分别是【告警策略列表】、【新建告警策略】、【更改告警策略】和【查看告警策略详情】。
告警策略列表#
当您希望看到所有的告警策略及其基本信息时,你您可以使用【告警策略列表】功能。在告警策略列表中,您可以选择查看相应集群下的告警策略、搜索告警策略、复制告警策略、删除告警策略,以及修改告警策略的状态(开启/禁用)等,如下图所示:
以下是对列表字段的具体解释:
策略名称:告警策略的名称。
集群数:告警策略绑定的子集群数,其中包括用户单独关联的子集群和用户通过关联集群下“所有子集群”关联的子集群数。
通知模板:告警策略关联的通知模板。
适用产品:告警策略的适用产品。
状态:启用或禁用本条告警策略。
备注:告警策略的备注。
修改时间:告警策略的最后修改时间。
最后修改人:告警策略的最后修改人。
新建告警策略#
当您希望新建一个告警策略时,您可以点击【新建策略】来新建一个告警策略,如下图所示:
更改告警策略#
当您希望更改某一告警策略关联的集群、通知模板和状态时,您可以将鼠标悬浮至列表的某一行上,点击【关联集群】或【关联通知模板】,即可修改策略关联的集群和关联的通知模板;点击该告警策略的【状态开关】,即可更改该告警策略的状态(开启/禁用),如下图所示:
查看告警策略详情#
当您希望查看某一告警策略的详情时,您可以点击该告警策略的【名称】,即可进入该告警策略的详情页查看详情。您还可以在详情页中修改告警策略,如下图所示:
通知模板#
当您希望定义告警信息如何通知相应用户时,您可以使用【通知模板】模块。您可以点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】=>【系统告警】=>【通知模板】进入到系统告警的【通知模板】模块,如下图所示:
在【通知模板】中,您可以自定义在何时用何种方式【通知模板】包含 3 部分内容:【通知模板列表】、【新建通知模板】和【通知模板详情】。
通知模板列表#
当您希望查看所有的通知模板及其大致信息时,您可以使用【通知模板】功能。在【通知模板列表】功能中,您可以对通知模板进行新建、删除、复制、搜索等操作,如下图所示:
以下是对列表字段的具体解释:
模板名称:通知模板的名称。
接收人/组:接收告警通知消息的用户 / 用户组,鼠标悬浮至文字描述时将展示详细说明。
修改时间、最后修改人:最后修改时间和修改人。
新建通知模板#
当您希望新建通知模板时,您可以点击【新建通知模板】按钮,如下图所示:
以下是对字段含义的具体解释:
通知时机:告警触发 / 告警恢复,可多选,分别会在告警产生 / 恢复时向用户发送通知。
接收对象
类型:分为用户 / 用户组。
接收人/接收组:接收人下拉菜单会展示用户的手机号、邮箱等信息,接收组会展示用户组下的用户信息。
通知时间段:告警通知生效的时间段。
接收渠道:站内信 / 邮件 / 短信,可多选。
通知模板详情#
当您希望查看某一通知模板的详情时,您可以在【通知模板列表】中点击该通知模板的【名称】,进入【通知模板详情】界面查看通知模板详情。在【通知模板详情】中,您也可以修改通知模板详情的内容或删除模板,如下图所示: