[Roadmap] AISBench 2026 Q1 Roadmap

# [Roadmap] AISBench Roadmap 2026 Q1

### AISBench Roadmap 2026 Q1

### 路线图愿景 | Roadmap Vision

2026 Q1 将围绕**多模态与生成测评**、**性能与流控可复现性**、**模型后端扩展**、**评测能力增强**（裁判模型）、**图像编辑测评**、**配置体验**六个方向推进。

整体目标是建成 VBench 多模态生成（T2V/I2V）评测体系；实现与 AIPerf 对齐的基于时间戳的固定流控与调度，支撑可复现性能测评；新增 MindSpore 本地推理后端；支持用户配置自定义裁判模型对推理结果打分；接入 GEdit-Bench 完成图像编辑模型精度测评；为 `--datasets` / `--models` 提供模糊匹配能力，并通过统一文档与示例支撑社区协作与复用。

### 当前状态分析 | Current Status Analysis

**项目定位**：AISBench 当前作为 AI 推理与多模态评测基准，覆盖文本与多模态场景下的精度评测与性能测评。

**已有能力**：

- **模型后端**：已支持 HuggingFace、vLLM 等本地推理（`ais_bench/benchmark/models/local_models/`），以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
- **评测体系**：基于 openicl 的评测 pipeline，支持数据集与 evaluator 配置，可对推理结果进行多维度评测。
- **性能测评**：支持 trace 数据集与 `--mode perf` 下的性能测试；配置通过 `--datasets`、`--models` 指定，当前为精确匹配。
- **配置与搜索**：提供 `--search` 等能力用于查看配置路径；配置加载需写全名或先查路径。

**缺口与诉求**：

- 多模态生成（T2V/I2V）评测能力缺失，需接入 VBench 等标准评测体系。
- 基于 timestamp 的请求流控与固定流控尚未实现，与 AIPerf 的 Fixed Schedule 语义未对齐，无法在可复现、可控负载下做性能对比。
- MindSpore 作为本地推理后端尚未支持；自定义裁判模型（API/URL）对推理结果打分的评测能力待建设。
- 图像编辑类精度测评（如 GEdit-Bench）未接入；配置需支持模糊匹配以提升使用体验。

### Focus

- **Multimodal & Generation Evaluation**：接入 VBench，建设 T2V/I2V 多模态生成评测体系。
- **Performance & Flow Control**：对齐 AIPerf，支持基于 timestamp 的请求流控与固定调度，实现可复现性能测评。
- **Model Backends Expansion**：新增 MindSpore 本地推理后端，丰富本地模型推理能力。
- **Evaluation & Judge Models**：支持自定义裁判模型与图像编辑评测，增强评测维度与主观/客观打分能力。
- **Usability & Configuration**：通过配置模糊匹配与统一文档示例，提升 AISBench 的易用性和上手体验。

### 阶段性目标 | Phased Goals

**时间约束**：全部特性需在 **3 月 31 日前** 完成。

| 时间节点 | 阶段性目标 |
|----------|-------------|
| **2/14 前** | 配置模糊匹配（任务 6）交付；多模态（任务 1）、性能流控（任务 2）设计/标准确认 |
| **2/28 前** | 性能与流控（任务 2）、MindSpore（任务 3）、裁判模型（任务 4）阶段交付 |
| **3/15 前** | 多模态（任务 1）、性能流控（任务 2）、图像编辑（任务 5）主体完成 |
| **3/31 前** | 全部特性验收、文档与示例就绪 |

上述时间节点与后续各模块中的工作项进度相对应：2/14 侧重方案设计与模糊匹配落地，2/28 重点在性能流控/MindSpore/裁判模型的基础能力交付，3/15 完成多模态与图像编辑主体功能，3/31 完成整体验收与文档沉淀。

## Multimodal & Generation (VBench) （任务 1）

- [ ] **VBench 多模态生成评测体系接入**
Goal: 建设新的评测体系，接入 VBench，支持多模态生成类（T2V、I2V）的多维度评测。
Owner: @GaoHuaZhang
Issue: 待补充
PR: 待补充

  - 对接 VBench 的 prompt suite 与评测维度（如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等）。
  - 在 `ais_bench/benchmark/datasets/` 中新增 VBench 相关数据集/评测器，或调用 VBench 脚本/库产出与 AISBench 统一的结果格式；首期支持离线视频文件 + VBench 维度。
  - 2/14 前对接方式确认、T2V 维度开发启动；3/15 前 T2V 维度接入完成；3/31 前 I2V/首期规划维度完成、文档与示例就绪。

## Performance & Flow Control （任务 2）

- [ ] **基于 timestamp 的固定流控与调度支持**
Goal: 参考 AIPerf，支持基于 timestamp 的请求流量控制与固定流控，在可复现、可控负载下进行性能测评。
Owner: @GaoHuaZhang
Issue: 待补充
PR: 待补充

  - Trace 支持 `timestamp` 及固定调度参数（如 `fixed_schedule_auto_offset`、`fixed_schedule_start_offset`、`fixed_schedule_end_offset`）；模型侧提供 `use_timestamp` 等开关，按 trace 时间序列发送请求。
  - 与 AIPerf Fixed Schedule 语义对齐（单位、偏移、窗口过滤），文档注明兼容性与使用方式；发布《固定流控与时间戳调度》文档。
  - 2/14 前标准定稿、实现启动；2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿；3/15 前固定流控全流程验收、文档发布。

## Model Backend (MindSpore) （任务 3）

- [ ] **MindSpore 本地模型推理后端**
Goal: 支持以 MindSpore 为推理后端的本地纯模型推理（本地加载、进程内推理，非服务化 API）。
Owner: @muqing-li
Issue: 待补充
PR: 待补充

  - 在 `ais_bench/benchmark/models/local_models/` 下新增 MindSpore 实现（如 `mindspore.py`），与 HuggingFace、vLLM 同级；实现本地加载与 forward 推理，对接 GenInferencer / BaseLocalInferencer。
  - 2/28 前指定模型在 MindSpore 上跑通推理；3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。

## Evaluation Capabilities (Judge Models) （任务 4）

- [ ] **自定义裁判模型评测能力**
Goal: 支持用户配置自定义裁判模型（API/URL），对模型推理结果进行打分，用于主观或维度化评测。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充

  - 定义裁判模型调用约定（输入：prompt/query、模型输出、参考答案等；输出：分数或维度分数）；实现 `JudgeModelEvaluator`，通过 URL/API 调用外部裁判服务；配置支持 `judge_model_url` / `judge_model_cfg`。
  - 2/28 前 API 协议与 `JudgeModelEvaluator` 实现、至少 1 类任务可用；3/31 前 Q1 交付范围（任务类型、数据集数量）达成。

## Image Editing Evaluation (GEdit) （任务 5）

- [ ] **GEdit 图像编辑精度测评接入 [🙋 Help Wanted]**
Goal: 接入 Step1X-Edit 的 GEdit-Bench，支持图像编辑模型的精度测评，并与官方评测脚本对齐。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充

  - 在 `configs/datasets/` 与 `datasets/` 中新增 GEdit 数据集，支持“原图 + 编辑指令 → 模型输出图”；实现或封装 GEdit 评测维度，与“自定义裁判模型”对接；与官方评测脚本（指标与流程）对齐并文档化。
  - 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明；3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。

## Configuration & UX (Fuzzy Matching) （任务 6）

- [ ] **配置模糊匹配与搜索支持 [🙋 Help Wanted]**
Goal: 在使用 `--datasets` / `--models`（及可选 `--summarizer`）时支持部分配置名（如 mooncake、qwen）自动搜索与匹配，减少配置路径记忆与查找成本。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充

  - 加载配置时对 `--datasets`、`--models`（及可选 `--summarizer`）先精确后模糊匹配，与 `match_files(..., fuzzy=True)` 的 *pattern* 语义一致；`--search` 与模糊匹配采用同一套规则。
  - 多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
  - 2/14 前实现并合入、文档与待补全项定稿。

## Others （可选）

- CI、文档、发布节奏等按需在本季度补充与更新。

### 补充说明 | Additional Notes

### 时间约束

- 全部特性需在 **3 月 31 日前** 完成。

### 各条补充说明

- **任务 1（VBench）**：首期支持离线视频文件 + VBench 维度，与 VBench 官方用法一致。
- **任务 2（性能与流控）**：需考虑多进程/多 worker 下的时间对齐；与 AIPerf 使用同一 trace 的验收标准（如时间误差阈值）需明确。
- **任务 3（MindSpore）**：MindSpore 本地离线推理，非服务化。
- **任务 4（裁判模型）**：裁判 API 的请求/响应协议对齐 OpenCompass。
- **任务 6（模糊匹配）**：默认开启模糊匹配。

## References

- [VBench](https://github.com/Vchitect/VBench)
- [AIPerf](https://github.com/ai-dynamo/aiperf)
- [MindSpore](https://github.com/mindspore-ai/mindspore)
- [Step1X-Edit / GEdit-Bench](https://github.com/stepfun-ai/Step1X-Edit)


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Roadmap] AISBench 2026 Q1 Roadmap #140

[Roadmap] AISBench Roadmap 2026 Q1

AISBench Roadmap 2026 Q1

路线图愿景 | Roadmap Vision

当前状态分析 | Current Status Analysis

Focus

阶段性目标 | Phased Goals

Multimodal & Generation (VBench) （任务 1）

Performance & Flow Control （任务 2）

Model Backend (MindSpore) （任务 3）

Evaluation Capabilities (Judge Models) （任务 4）

Image Editing Evaluation (GEdit) （任务 5）

Configuration & UX (Fuzzy Matching) （任务 6）

Others （可选）

补充说明 | Additional Notes

时间约束

各条补充说明

References

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

时间节点	阶段性目标
2/14 前	配置模糊匹配（任务 6）交付；多模态（任务 1）、性能流控（任务 2）设计/标准确认
2/28 前	性能与流控（任务 2）、MindSpore（任务 3）、裁判模型（任务 4）阶段交付
3/15 前	多模态（任务 1）、性能流控（任务 2）、图像编辑（任务 5）主体完成
3/31 前	全部特性验收、文档与示例就绪

[Roadmap] AISBench 2026 Q1 Roadmap #140

Description

[Roadmap] AISBench Roadmap 2026 Q1

AISBench Roadmap 2026 Q1

路线图愿景 | Roadmap Vision

当前状态分析 | Current Status Analysis

Focus

阶段性目标 | Phased Goals

Multimodal & Generation (VBench) （任务 1）

Performance & Flow Control （任务 2）

Model Backend (MindSpore) （任务 3）

Evaluation Capabilities (Judge Models) （任务 4）

Image Editing Evaluation (GEdit) （任务 5）

Configuration & UX (Fuzzy Matching) （任务 6）

Others （可选）

补充说明 | Additional Notes

时间约束

各条补充说明

References

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions