Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
102 changes: 102 additions & 0 deletions docs/plugins/alert.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,102 @@
---
title: 告警中心
description: Rainbond 告警中心插件,提供实时异常检测与智能告警,支持自定义告警规则、多渠道通知(邮件/钉钉/飞书/Webhook)和告警生命周期管理。
keywords:
- 告警中心
- 告警规则
- 告警通知
- Prometheus
- 可观测性
---

import PluginBadge from '@site/src/components/Docs/PluginBadge';
import EnterpriseCTA from '@site/src/components/Docs/EnterpriseCTA';

<PluginBadge type="enterprise" />

## 概述

开源版 Rainbond 不具备告警能力,当集群节点异常、组件资源超限或关键服务故障时,运维人员只能依赖手动巡检来发现问题,响应滞后。

**Rainbond 告警中心**是平台级的实时异常检测与智能告警系统,对接 Prometheus 数据源,内置丰富的告警规则模板,覆盖系统负载、CPU、磁盘、etcd、Kubernetes 控制面等核心指标。支持自定义告警规则和阈值,通过邮件、钉钉、飞书、Webhook 等多渠道通知,保障服务连续性。

## 功能对比

| 维度 | 开源版 | 告警中心插件 |
| :--- | :--- | :--- |
| **异常感知** | 无告警能力,依赖手动巡检 | 实时监测,异常自动触发告警 |
| **告警规则** | 无 | 内置系统/K8s/etcd 等规则模板,支持自定义 |
| **通知渠道** | 无 | 邮件、钉钉、飞书、企业微信、Webhook |
| **告警管理** | 无 | 活跃告警、历史告警、屏蔽规则、告警分组 |

## 核心能力

### 告警规则管理

内置丰富的告警规则模板,对接 Prometheus 数据源,覆盖主要运维场景:

* **系统级规则**:系统负载过高、CPU 负载高、inode 使用率高等
* **Kubernetes 级规则**:控制面故障、DaemonSet 清理失败、证书即将过期等
* **etcd 规则**:健康检查失败、实例不可用、性能异常、Leader 丢失等
* **CoreDNS 规则**:CoreDNS 未就绪

每条规则可配置告警级别(S1 / S2 / S3)、附加标签、告警接收组,并支持逐条启用或禁用。

![告警规则管理](/plugins/alert/alert-overview.png)

### 告警生命周期管理

告警中心提供完整的告警生命周期管理:

| 模块 | 说明 |
| :--- | :--- |
| **活跃告警** | 查看当前正在触发的告警,实时掌握系统异常状态 |
| **历史告警** | 查看已恢复的告警记录,支持回溯和统计分析 |
| **屏蔽规则** | 对已知问题或计划内维护设置告警屏蔽,避免告警噪声 |

### 多渠道通知

灵活配置通知策略,确保告警信息及时送达:

* **通知设置**:配置通知规则,按告警级别和分组路由到不同渠道
* **通知模版**:自定义通知内容模板,支持变量替换
* **联系方式**:管理邮件、钉钉、飞书、企业微信、Webhook 等通知渠道
* **告警用户**:管理告警接收人和接收组

### 数据源管理

支持对接 Prometheus 数据源,统一管理告警数据来源。支持配置多个数据源,适配多集群场景。

## 使用指南

### 启用插件

1. 进入 **平台管理 -> 插件中心**,找到「告警中心」插件并启用。
2. 启用后刷新页面,平台管理视图左侧「可观测性」分组下会出现「告警中心」入口。

### 配置数据源

1. 进入 **告警中心 -> 数据源**。
2. 确认 Prometheus 数据源已就绪,或添加新的数据源。

### 管理告警规则

1. 进入 **告警中心 -> 告警规则**。
2. 插件已内置常用规则,可直接启用。
3. 如需自定义,点击 **新增** 创建规则,配置数据源、告警表达式、级别和接收组。
4. 通过筛选栏按数据源类型、级别、名称快速定位规则。

### 配置通知渠道

1. 进入 **告警中心 -> 联系方式**,添加通知渠道(邮件、钉钉、飞书、Webhook 等)。
2. 进入 **告警中心 -> 通知模版**,根据需要自定义通知内容。
3. 进入 **告警中心 -> 告警用户**,添加告警接收人并分组。
4. 进入 **告警中心 -> 通知设置**,将告警规则与通知渠道、接收组关联。

### 查看告警

* **活跃告警**:查看当前触发中的告警,及时处理异常。
* **历史告警**:回溯已恢复的告警,分析问题趋势。
* **屏蔽规则**:对计划维护或已知问题设置临时屏蔽。

<EnterpriseCTA />
119 changes: 119 additions & 0 deletions docs/plugins/disaster-recovery.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,119 @@
---
title: 灾备恢复
description: Rainbond 灾备恢复插件,通过 S3 存储实现平台元数据的备份与恢复,支持定时备份策略、一键恢复和跨平台迁移。
keywords:
- 灾备恢复
- 数据备份
- 平台恢复
- S3 存储
- 业务连续性
---

import PluginBadge from '@site/src/components/Docs/PluginBadge';
import EnterpriseCTA from '@site/src/components/Docs/EnterpriseCTA';

<PluginBadge type="enterprise" />

## 概述

在现代企业应用架构中,业务连续性和数据安全至关重要。任何意外事件(如硬件故障、网络中断、自然灾害或人为错误)都可能导致平台服务中断,给企业造成严重的经济损失。

**Rainbond 灾备恢复**是 Rainbond 平台提供的企业级数据保护方案,通过 S3 存储实现平台元数据的备份与恢复。该方案与 Rainbond 平台架构深度集成,提供可视化的备份策略配置和自动化恢复能力,显著降低数据保护的实施和运维成本。

## 功能对比

下表对比了传统数据保护方案与本插件的差异:

| 维度 | 传统数据保护方案 | Rainbond 灾备恢复 |
| :--- | :--- | :--- |
| **存储方案** | 需要单独部署存储系统,成本高 | 内置 S3 存储,支持对接外部 S3,灵活部署 |
| **备份策略** | 需要编写复杂脚本,定时任务管理困难 | 可视化配置备份策略,支持定时备份 |
| **恢复过程** | 恢复流程复杂,需要专业人员操作 | 一键式恢复,自动化执行 |
| **数据一致性** | 备份与恢复过程易出错,数据一致性难以保证 | 平台元数据与存储卷关联备份,恢复后可直接使用 |

## 核心能力

### S3 存储集成

平台默认自带轻量级 S3 存储(MinIO),无需额外部署即可开始使用。同时支持对接外部 S3 存储服务(AWS S3、阿里云 OSS、MinIO 等),通过统一的存储管理界面配置连接参数。

![S3 存储管理](/plugins/disaster-recovery/dr-s3-storage.png)

### 智能备份策略

支持手动备份和自动化定时备份,通过可视化弹窗配置备份策略:

* **启用自动备份**:开启或关闭定时备份
* **执行频率**:支持按 Cron 表达式设定周期(如每天凌晨 2 点)
* **选择存储源**:指定备份文件保存的 S3 存储

![自动化备份策略](/plugins/disaster-recovery/dr-backup-strategy.png)

### 平台元数据备份

备份内容涵盖平台完整状态,备份详情页面展示基本信息、数据统计和执行日志:

* 备份平台元数据(应用配置、组件关系、用户权限等)
* 统计备份范围:团队数、用户数、应用数、组件数、持久卷数
* 支持 PVC/PV 存储卷备份(底层存储为外部存储时),恢复后组件数据可直接使用
* 执行日志完整记录备份过程

![备份详情](/plugins/disaster-recovery/dr-backup-detail.png)

### 快速恢复

支持同平台恢复(单集群恢复)和跨平台恢复(迁移到新集群)。恢复任务页面展示恢复 ID、备份 ID、状态、耗时及执行日志,全程自动化执行。

* 本地备份恢复:从备份列表选择备份文件直接恢复
* 上传备份文件恢复:上传本地保存的备份文件进行恢复
* 恢复前自动进行完整性校验和环境兼容性检查

![恢复任务](/plugins/disaster-recovery/dr-restore-task.png)

## 使用指南

### 启用插件

1. 进入 **平台管理 -> 插件中心**,找到「灾备恢复」插件并启用。
2. 启用后刷新页面,平台管理视图左侧导航栏会出现「灾难备份」入口。

### 配置存储方案

1. 在灾难备份页面,点击右上角 **管理 S3 存储**。
2. 默认已有本地存储(MinIO),可直接使用。
3. 如需对接外部 S3,点击 **+ 添加 S3 配置**,填写存储名称、Endpoint、Bucket、Access Key 和 Secret Key。

### 配置备份策略

1. 在灾难备份页面,点击 **自动化备份策略**。
2. 将「启用自动备份」设为 **开启**。
3. 设置执行频率(如每天凌晨 2 点)。
4. 选择存储源,点击 **保存**。

### 执行备份

**自动备份:** 策略启用后,按照设定周期自动执行。

**手动备份:** 在备份管理页面,点击 **+ 手动备份** 立即执行。备份完成后支持下载备份文件到本地保存。

### 执行恢复

**方式一:本地备份恢复**

1. 在备份管理页面,找到要恢复的备份记录,点击「恢复」。
2. 跳转到恢复管理页面,确认备份详情(创建时间、大小、完整性状态)。
3. 点击 **开始恢复**,等待恢复任务完成。

**方式二:上传备份文件恢复**

1. 切换到 **恢复管理** 标签页,点击「上传备份文件」。
2. 选择本地备份文件并上传。
3. 上传完成后点击 **开始恢复**。

## 限制说明

* **单集群支持**:当前仅支持单集群的平台备份恢复,不支持多集群备份恢复
* **快速安装限制**:不支持快速安装方式部署的 Rainbond 平台
* **存储卷要求**:PVC/PV 恢复需要底层存储为外部存储(如云盘、NFS 等),本地存储卷恢复后无法直接使用

<EnterpriseCTA />
85 changes: 85 additions & 0 deletions docs/plugins/gpu.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,85 @@
---
title: GPU 管理
description: Rainbond GPU 高级管理插件,提供异构 GPU 资源池化、vGPU 细粒度共享与隔离、GPU 可观测性等企业级 GPU 管理能力。
keywords:
- GPU 管理
- vGPU
- GPU 共享
- GPU 隔离
- GPU 资源池化
---

import PluginBadge from '@site/src/components/Docs/PluginBadge';
import EnterpriseCTA from '@site/src/components/Docs/EnterpriseCTA';

<PluginBadge type="enterprise" />

## 概述

Rainbond GPU 高级管理插件为平台提供企业级的 GPU 算力调度能力。在默认的 Kubernetes 环境中,GPU 只能以整卡为单位进行独占式分配,导致显存利用率低、资源浪费严重。本插件通过 GPU 虚拟化与池化技术,支持将物理 GPU 切分为细粒度的 vGPU,实现多任务共享与硬隔离,同时统一纳管不同品牌和型号的异构 GPU。

## 功能对比

下表对比了基础开源方案与本插件在 GPU 管理方面的差异:

| 维度 | 基础开源方案 | GPU 高级管理插件 |
| :--- | :--- | :--- |
| **资源分配** | 只能分配整数张卡(1 张、2 张等) | 支持细粒度切分(如 0.2 张卡,或指定 4GB 显存),单卡可供多个服务同时使用 |
| **异构纳管** | 需针对每种显卡手动编写调度策略 | 统一纳管 Nvidia、AMD 及国产信创 GPU(昇腾、海光等),屏蔽底层硬件差异 |
| **安全隔离** | 共享时容易发生显存 OOM 互相影响 | 提供显存与算力的硬隔离,多租户共享时互不干扰 |
| **运维成本** | 需投入专人持续维护底层调度组件 | 通过平台界面启用和配置,降低运维复杂度 |

:::tip 示例场景
假设集群中有 4 张 A100 (80GB) 显卡。在整卡分配模式下,最多分配给 4 个推理服务。启用本插件后,可按需切分为 16 个 20GB 显存的 vGPU,支撑 16 个服务并发运行。实际切分粒度取决于业务的显存和算力需求。
:::

## 核心能力

### 异构 GPU 资源池化

插件自动识别集群内的所有 GPU 节点,将不同品牌和型号的 GPU 汇聚为统一的算力资源池。在资源总览页面可以直观查看 GPU 节点数、卡数、总显存及整体使用率,并下钻至每个节点查看 GPU 型号、显存、温度、功耗等详细信息。

* 支持主流 Nvidia 系列(A100、V100、T4、RTX 系列等)
* 支持国产信创 GPU(昇腾、海光等)

![GPU 资源池总览](/plugins/gpu/gpu-overview.png)

### 细粒度 vGPU 共享与隔离

平台管理员可按团队维度配置 GPU 显存配额,限制每个团队可使用的最大显存量,实现多租户间的资源隔离。

* **团队级配额**:为每个团队设定 GPU 显存上限(如 admin 工作空间 10 GB、平台插件 5 GB),防止资源被单一团队耗尽
* **显存隔离**:严格限制每个组件可使用的最大显存,防止越权占用

![团队 GPU 资源配额](/plugins/gpu/gpu-limit.png)

### GPU 可观测性

在资源池总览页面内置实时监控,展示每张物理 GPU 的运行状态。

* 监控每张物理卡的显存用量、温度、功耗和运行状态
* 支持按节点下钻查看 GPU 详情,辅助进行算力容量规划


## 使用指南

### 启用插件

1. 进入 **平台管理 -> 插件中心**,找到「GPU 高级管理」插件并启用。

### 为组件配置 GPU 资源

1. 进入需要使用 GPU 的组件,切换到 **GPU 管理** 标签页。
2. 将「启用 GPU」设为 **启用**,选择 GPU 类型(如 NVIDIA)。
3. 填写所需的 GPU 卡数(如 `1` 张)。
4. 选择 **共享模式** 或 **独占模式**:
- 共享模式:多个组件共享同一张 GPU,按显存配额隔离
- 独占模式:组件独占整张 GPU
5. 在共享模式下,输入所需的 GPU 显存数(如 `10.0` GB)。
6. 点击 **保存配置** 使设置生效。

![组件 GPU 资源配置](/plugins/gpu/gpu-component.png)

配置完成后,页面底部的「GPU 资源情况」会实时展示集群 GPU 卡总数和显存配额使用率。

<EnterpriseCTA />
82 changes: 82 additions & 0 deletions docs/plugins/logs.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,82 @@
---
title: 日志中心
description: Rainbond 日志中心插件,提供平台级全局日志检索和组件级历史日志查看能力,支持多维度筛选、日志趋势图和日志下载。
keywords:
- 日志中心
- 日志检索
- 历史日志
- 日志下载
- 可观测性
---

import PluginBadge from '@site/src/components/Docs/PluginBadge';
import EnterpriseCTA from '@site/src/components/Docs/EnterpriseCTA';

<PluginBadge type="enterprise" />

## 概述

在开源版 Rainbond 中,用户只能查看组件的实时日志,无法检索历史日志,也没有平台级的统一日志入口。当需要排查已过期的日志或跨组件关联问题时,往往需要登录节点手动查找,效率低下。

**Rainbond 日志中心**插件为平台补齐了日志可观测能力,提供两个核心入口:

* **平台管理 → 日志中心**:全局日志检索,跨集群、跨组件统一查询
* **组件视图 → 历史日志**:查看单个组件的历史日志,支持翻页和下载

## 功能对比

下表对比了开源版与启用日志中心插件后的差异:

| 维度 | 开源版 | 日志中心插件 |
| :--- | :--- | :--- |
| **日志范围** | 仅当前实时日志 | 实时 + 历史日志持久化存储 |
| **检索能力** | 无 | 支持按集群、服务、日志级别、关键字多维度检索 |
| **全局视图** | 无,需逐个组件查看 | 平台级统一日志入口,跨组件关联查询 |
| **日志下载** | 不支持 | 支持历史日志下载,便于离线分析和归档 |

## 核心能力

### 平台级全局日志检索

在平台管理页面的「日志中心」中,提供功能完整的日志检索面板:

* **多维度筛选**:按集群、服务/网关、日志级别(ERROR / WARN / INFO 等)、操作类型组合筛选
* **关键字搜索**:支持全文检索,快速定位目标日志
* **日志趋势图**:以柱状图展示时间维度的日志分布,直观发现异常峰值
* **日志明细表**:展示每条日志的时间、级别、来源文件和完整内容

![平台级日志检索](/plugins/logs/logs-platform.png)

### 组件级历史日志

在组件视图中,新增历史日志查看入口,弹窗形式展示组件的历史日志:

* **时间范围选择**:支持预设时间范围和自定义起止时间
* **日志翻页**:支持上一页 / 下一页浏览大量历史日志
* **日志下载**:一键下载历史日志文件,便于离线分析和归档

![组件历史日志](/plugins/logs/logs-component.png)

## 使用指南

### 启用插件

1. 进入 **平台管理 -> 插件中心**,找到「日志中心」插件并启用。
2. 启用后刷新页面,平台管理视图左侧导航栏会出现「日志中心」入口。

### 全局日志检索

1. 点击 **平台管理 -> 日志中心** 进入检索面板。
2. 通过顶部筛选栏选择集群、服务、日志级别等条件。
3. 在搜索框输入关键字,回车执行检索。
4. 观察日志趋势图,点击异常时段可聚焦到对应时间范围。
5. 在下方日志表中查看详细内容。

### 查看组件历史日志

1. 进入目标组件的组件视图。
2. 点击历史日志入口,弹出日志查看窗口。
3. 选择时间范围,浏览历史日志。
4. 如需离线分析,点击 **下载日志** 保存到本地。

<EnterpriseCTA />
Loading