数据库状态监控#

检查节点#

通过如下命令得到处于不健康状态 OushuDB 的节点

SELECT * FROM gp_segment_configuration WHERE status <> 'u';

推荐频率 : 每隔 5-10 分钟。如果发现有 segment 处于不健康状态,可以尝试 ssh 到那个 segment,查看 segment 的日志确定具体原因并进行修复,然后启动该 segment,该 segment 会自动加入集群。

检查虚拟集群#

  1. 通过如下命令得到没有节点的虚拟集群

SELECT * FROM oushu_vcluster WHERE status = 'e';

status = ‘e’ 代表虚拟集群没有节点,需要手动修改 oushu-topology.yaml 后 reload 来添加节点并生效。

  1. 通过如下命令得到宕机的虚拟集群

SELECT * FROM oushu_vcluster WHERE status = 'd';

status = ‘d’ 代表虚拟集群所有节点都宕机,需要依次检查所有 segment 节点,确认问题后重启节点恢复。

  1. 通过如下命令得到没有资源队列的虚拟集群

SELECT * FROM oushu_vcluster WHERE status = 's';

status = ‘s’ 代表虚拟集群没有资源队列,需要手工创建资源队列后使用。