总览
本页目录
总览#
简介#
什么是总览#
总览,即对平台整体运行情况和节点指标的总览,包括【平台总览】和【节点指标】两部分内容。
使用场景#
平台总览:用于查看整体服务的运行情况。
节点指标:在具体使用场景中查看个体节点的运行情况。
基本概念#
时间范围#
系统提供两种时间选择方式,分别是固定时间范围和自定义时间范围:
固定时间范围: 系统固定给您可选择的时间范围称为固定时间范围。用户可选择的选项为实时、近一天、近七天。固定时间范围的计算方式为,以现在的时间作为结束时间,向前推至某段时间,在这段时间内,相关指标的变化信息。如,“实时”表示以选择实时选项的时间为结束时间,向前推至1小时时间点为开始时间,查看这两个时间点之间的相关指标变化信息 (近一天、近七天同理) 。固定时间范围选择后,页面持续接收最新指标数据并展示。
自定义时间范围: 可自定义开始时间与结束时间。最大选择范围依据 Prometheus 数据存储的配置决定,当前默认值为保存 14 天。如果有需要可以修改默认 prometheus 配置来满足需求。自定义时间范围不可以动态刷新指标数据。
数据粒度#
数据粒度是在时间维度上,按照某个时间长度,将数据进行一次整合的具体时间长度。如“近七天”的数据粒度为1小时,即,在“近七天”的时间范围下,数据每1小时整合一次。数据粒度依据不同的时间范围提供不同的可选选项:
近 30 天: 按 1 小时;
近七天: 按 1 小时;
近一天: 按 10 分钟、按 1 小时;
实时: 按 10 秒、按 1 分钟;
自定义: 由管理平台决定数据粒度的时间范围;
使用指南#
平台总览#
当您希望查看整体服务的运行情况时,您需要进入【平台总览】功能模块。点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】中的【平台总览】,即可查看页面,如下图所示:
在【平台总览】中,您可以看到对平台各项指标的监控概览,如下图所示:
点击卡片右上角的【放大】按钮,您可以看到该指标的清晰放大版本,如下图所示:
节点指标#
当您希望在具体使用场景中查看节点的运行情况时,您需要进入【节点指标】功能模块。点击顶部菜单栏的【产品】=>【监控运维】,再点击侧边栏中的【节点指标】,即可查看页面,如下图所示:
节点指标模块主要包含三部分功能:节点列表、节点详情和指标对比。
节点列表#
在节点列表中,可对当前用户下节点的 CPU 使用率、内存使用率、资源实时概览进行实时展示,主要用于快速排查存在问题的节点。【节点列表】展示如下图所示:
节点详情#
当您希望查看该节点的详情信息时,您可以在【节点列表】中,点击某节点的【名称】,即可进入到节点的详情界面中,查看该节点的详情(另一种查看方式为通过 URL 进行访问,如在安装部署模块中通过点击节点名称,跳转到节点详情界面查看节点详情)。【节点详情】展示如下:
【节点详情】包含两个子功能:【资源监控】和【告警历史】。
资源监控#
当您希望查看该节点的信息和具体使用情况时,您可以使用【资源监控】,您可以点击【资源监控 Tab 页选项】进入【资源监控】功能,如下图所示:
【资源监控】包含两部分内容:【节点信息】和【指标监控(包含TOP指标)】。
【节点信息】为您提供选中节点的系统信息及关联的集群信息,如下图所示:
【节点信息】还可展示该节点上拥有的服务,及该服务所在的集群的层级关系。您可以通过【资源监控】=>【节点信息】=>【服务】中找到具体的服务信息,如下图所示:
【指标监控】为您提供了各个系统指标(例如,CPU、系统负载、内存、磁盘 IO、TOP 进程)的资源使用情况。您可以选择需要监控的时间段,您还可以点击标题即可展开/收起指标监控内容。点击每个图标右上角的【放大箭头】,您还可以活得更加清晰、明确的图像呈现。整体操作如下图所示:
告警历史#
当您希望查看该节点所有的告警信息时,您可以点击【告警历史 Tab 页选项】进入【告警历史】功能,如下图所示:
【告警历史】的主要内容为【待处理告警】和【告警历史】,您可以根据需要查看该节点的告警信息,如下图所示:
指标对比#
当您希望需要指标的对比展示,您可以在【节点指标】模块点击【指标对比】进入指标对比功能。
在【指标对比】中,您可以选择需要对比的指标、节点、时间范围及粒度,系统会在下方生成对比结果,方便您以对比的方式发现有问题的节点或指标,如下图所示: