总览#

简介#

什么是总览#

总览,即对平台整体运行情况和节点指标的总览,包括【平台总览】和【节点指标】两部分内容。

使用场景#

  • 平台总览:用于查看整体服务的运行情况。

  • 节点指标:在具体使用场景中查看个体节点的运行情况。

基本概念#

时间范围#

系统提供两种时间选择方式,分别是固定时间范围和自定义时间范围:

  • 固定时间范围: 系统固定给您可选择的时间范围称为固定时间范围。用户可选择的选项为实时、近一天、近七天。固定时间范围的计算方式为,以现在的时间作为结束时间,向前推至某段时间,在这段时间内,相关指标的变化信息。如,“实时”表示以选择实时选项的时间为结束时间,向前推至1小时时间点为开始时间,查看这两个时间点之间的相关指标变化信息 (近一天、近七天同理) 。固定时间范围选择后,页面持续接收最新指标数据并展示。

  • 自定义时间范围: 可自定义开始时间与结束时间。最大选择范围依据 Prometheus 数据存储的配置决定,当前默认值为保存 14 天。如果有需要可以修改默认 prometheus 配置来满足需求。自定义时间范围不可以动态刷新指标数据。

数据粒度#

数据粒度是在时间维度上,按照某个时间长度,将数据进行一次整合的具体时间长度。如“近七天”的数据粒度为1小时,即,在“近七天”的时间范围下,数据每1小时整合一次。数据粒度依据不同的时间范围提供不同的可选选项:

  • 近 30 天: 按 1 小时;

  • 近七天: 按 1 小时;

  • 近一天: 按 10 分钟、按 1 小时;

  • 实时: 按 10 秒、按 1 分钟;

  • 自定义: 由管理平台决定数据粒度的时间范围;

使用指南#

平台总览#

当您希望查看整体服务的运行情况时,您需要进入【平台总览】功能模块。点击【顶部菜单栏】的【产品】=>【监控运维】,再点击【侧边栏】中的【平台总览】,即可查看页面,如下图所示:

平台总览

在【平台总览】中,您可以看到对平台各项指标的监控概览,如下图所示:

平台总览

点击卡片右上角的【放大】按钮,您可以看到该指标的清晰放大版本,如下图所示:

平台总览

平台总览

节点指标#

当您希望在具体使用场景中查看节点的运行情况时,您需要进入【节点指标】功能模块。点击顶部菜单栏的【产品】=>【监控运维】,再点击侧边栏中的【节点指标】,即可查看页面,如下图所示:

节点指标

节点指标模块主要包含三部分功能:节点列表、节点详情和指标对比。

节点列表#

在节点列表中,可对当前用户下节点的 CPU 使用率、内存使用率、资源实时概览进行实时展示,主要用于快速排查存在问题的节点。【节点列表】展示如下图所示:

节点列表

节点详情#

当您希望查看该节点的详情信息时,您可以在【节点列表】中,点击某节点的【名称】,即可进入到节点的详情界面中,查看该节点的详情(另一种查看方式为通过 URL 进行访问,如在安装部署模块中通过点击节点名称,跳转到节点详情界面查看节点详情)。【节点详情】展示如下:

节点详情

【节点详情】包含两个子功能:【资源监控】和【告警历史】。

资源监控#

当您希望查看该节点的信息和具体使用情况时,您可以使用【资源监控】,您可以点击【资源监控 Tab 页选项】进入【资源监控】功能,如下图所示:

节点详情

【资源监控】包含两部分内容:【节点信息】和【指标监控(包含TOP指标)】。

【节点信息】为您提供选中节点的系统信息及关联的集群信息,如下图所示:

节点信息

【节点信息】还可展示该节点上拥有的服务,及该服务所在的集群的层级关系。您可以通过【资源监控】=>【节点信息】=>【服务】中找到具体的服务信息,如下图所示:

节点服务信息

【指标监控】为您提供了各个系统指标(例如,CPU、系统负载、内存、磁盘 IO、TOP 进程)的资源使用情况。您可以选择需要监控的时间段,您还可以点击标题即可展开/收起指标监控内容。点击每个图标右上角的【放大箭头】,您还可以活得更加清晰、明确的图像呈现。整体操作如下图所示:

监控指标03

监控指标04

告警历史#

当您希望查看该节点所有的告警信息时,您可以点击【告警历史 Tab 页选项】进入【告警历史】功能,如下图所示:

指标监控

【告警历史】的主要内容为【待处理告警】和【告警历史】,您可以根据需要查看该节点的告警信息,如下图所示:

指标监控

指标对比#

当您希望需要指标的对比展示,您可以在【节点指标】模块点击【指标对比】进入指标对比功能。

在【指标对比】中,您可以选择需要对比的指标、节点、时间范围及粒度,系统会在下方生成对比结果,方便您以对比的方式发现有问题的节点或指标,如下图所示:

同指标不同节点指标对比

同指标不同节点指标对比