-
Notifications
You must be signed in to change notification settings - Fork 14
Description
[Roadmap] AISBench Roadmap 2026 Q1
AISBench Roadmap 2026 Q1
路线图愿景 | Roadmap Vision
2026 Q1 将围绕多模态与生成测评、性能与流控可复现性、模型后端扩展、评测能力增强(裁判模型)、图像编辑测评、配置体验六个方向推进。
整体目标是建成 VBench 多模态生成(T2V/I2V)评测体系;实现与 AIPerf 对齐的基于时间戳的固定流控与调度,支撑可复现性能测评;新增 MindSpore 本地推理后端;支持用户配置自定义裁判模型对推理结果打分;接入 GEdit-Bench 完成图像编辑模型精度测评;为 --datasets / --models 提供模糊匹配能力,并通过统一文档与示例支撑社区协作与复用。
当前状态分析 | Current Status Analysis
项目定位:AISBench 当前作为 AI 推理与多模态评测基准,覆盖文本与多模态场景下的精度评测与性能测评。
已有能力:
- 模型后端:已支持 HuggingFace、vLLM 等本地推理(
ais_bench/benchmark/models/local_models/),以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。 - 评测体系:基于 openicl 的评测 pipeline,支持数据集与 evaluator 配置,可对推理结果进行多维度评测。
- 性能测评:支持 trace 数据集与
--mode perf下的性能测试;配置通过--datasets、--models指定,当前为精确匹配。 - 配置与搜索:提供
--search等能力用于查看配置路径;配置加载需写全名或先查路径。
缺口与诉求:
- 多模态生成(T2V/I2V)评测能力缺失,需接入 VBench 等标准评测体系。
- 基于 timestamp 的请求流控与固定流控尚未实现,与 AIPerf 的 Fixed Schedule 语义未对齐,无法在可复现、可控负载下做性能对比。
- MindSpore 作为本地推理后端尚未支持;自定义裁判模型(API/URL)对推理结果打分的评测能力待建设。
- 图像编辑类精度测评(如 GEdit-Bench)未接入;配置需支持模糊匹配以提升使用体验。
Focus
- Multimodal & Generation Evaluation:接入 VBench,建设 T2V/I2V 多模态生成评测体系。
- Performance & Flow Control:对齐 AIPerf,支持基于 timestamp 的请求流控与固定调度,实现可复现性能测评。
- Model Backends Expansion:新增 MindSpore 本地推理后端,丰富本地模型推理能力。
- Evaluation & Judge Models:支持自定义裁判模型与图像编辑评测,增强评测维度与主观/客观打分能力。
- Usability & Configuration:通过配置模糊匹配与统一文档示例,提升 AISBench 的易用性和上手体验。
阶段性目标 | Phased Goals
时间约束:全部特性需在 3 月 31 日前 完成。
| 时间节点 | 阶段性目标 |
|---|---|
| 2/14 前 | 配置模糊匹配(任务 6)交付;多模态(任务 1)、性能流控(任务 2)设计/标准确认 |
| 2/28 前 | 性能与流控(任务 2)、MindSpore(任务 3)、裁判模型(任务 4)阶段交付 |
| 3/15 前 | 多模态(任务 1)、性能流控(任务 2)、图像编辑(任务 5)主体完成 |
| 3/31 前 | 全部特性验收、文档与示例就绪 |
上述时间节点与后续各模块中的工作项进度相对应:2/14 侧重方案设计与模糊匹配落地,2/28 重点在性能流控/MindSpore/裁判模型的基础能力交付,3/15 完成多模态与图像编辑主体功能,3/31 完成整体验收与文档沉淀。
Multimodal & Generation (VBench) (任务 1)
-
VBench 多模态生成评测体系接入
Goal: 建设新的评测体系,接入 VBench,支持多模态生成类(T2V、I2V)的多维度评测。
Owner: @GaoHuaZhang
Issue: 待补充
PR: 待补充- 对接 VBench 的 prompt suite 与评测维度(如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等)。
- 在
ais_bench/benchmark/datasets/中新增 VBench 相关数据集/评测器,或调用 VBench 脚本/库产出与 AISBench 统一的结果格式;首期支持离线视频文件 + VBench 维度。 - 2/14 前对接方式确认、T2V 维度开发启动;3/15 前 T2V 维度接入完成;3/31 前 I2V/首期规划维度完成、文档与示例就绪。
Performance & Flow Control (任务 2)
-
基于 timestamp 的固定流控与调度支持
Goal: 参考 AIPerf,支持基于 timestamp 的请求流量控制与固定流控,在可复现、可控负载下进行性能测评。
Owner: @GaoHuaZhang
Issue: 待补充
PR: 待补充- Trace 支持
timestamp及固定调度参数(如fixed_schedule_auto_offset、fixed_schedule_start_offset、fixed_schedule_end_offset);模型侧提供use_timestamp等开关,按 trace 时间序列发送请求。 - 与 AIPerf Fixed Schedule 语义对齐(单位、偏移、窗口过滤),文档注明兼容性与使用方式;发布《固定流控与时间戳调度》文档。
- 2/14 前标准定稿、实现启动;2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿;3/15 前固定流控全流程验收、文档发布。
- Trace 支持
Model Backend (MindSpore) (任务 3)
-
MindSpore 本地模型推理后端
Goal: 支持以 MindSpore 为推理后端的本地纯模型推理(本地加载、进程内推理,非服务化 API)。
Owner: @muqing-li
Issue: 待补充
PR: 待补充- 在
ais_bench/benchmark/models/local_models/下新增 MindSpore 实现(如mindspore.py),与 HuggingFace、vLLM 同级;实现本地加载与 forward 推理,对接 GenInferencer / BaseLocalInferencer。 - 2/28 前指定模型在 MindSpore 上跑通推理;3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。
- 在
Evaluation Capabilities (Judge Models) (任务 4)
-
自定义裁判模型评测能力
Goal: 支持用户配置自定义裁判模型(API/URL),对模型推理结果进行打分,用于主观或维度化评测。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充- 定义裁判模型调用约定(输入:prompt/query、模型输出、参考答案等;输出:分数或维度分数);实现
JudgeModelEvaluator,通过 URL/API 调用外部裁判服务;配置支持judge_model_url/judge_model_cfg。 - 2/28 前 API 协议与
JudgeModelEvaluator实现、至少 1 类任务可用;3/31 前 Q1 交付范围(任务类型、数据集数量)达成。
- 定义裁判模型调用约定(输入:prompt/query、模型输出、参考答案等;输出:分数或维度分数);实现
Image Editing Evaluation (GEdit) (任务 5)
-
GEdit 图像编辑精度测评接入 [🙋 Help Wanted]
Goal: 接入 Step1X-Edit 的 GEdit-Bench,支持图像编辑模型的精度测评,并与官方评测脚本对齐。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充- 在
configs/datasets/与datasets/中新增 GEdit 数据集,支持“原图 + 编辑指令 → 模型输出图”;实现或封装 GEdit 评测维度,与“自定义裁判模型”对接;与官方评测脚本(指标与流程)对齐并文档化。 - 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明;3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。
- 在
Configuration & UX (Fuzzy Matching) (任务 6)
-
配置模糊匹配与搜索支持 [🙋 Help Wanted]
Goal: 在使用--datasets/--models(及可选--summarizer)时支持部分配置名(如 mooncake、qwen)自动搜索与匹配,减少配置路径记忆与查找成本。
Owner: @SJTUyh
Issue: 待补充
PR: 待补充- 加载配置时对
--datasets、--models(及可选--summarizer)先精确后模糊匹配,与match_files(..., fuzzy=True)的 pattern 语义一致;--search与模糊匹配采用同一套规则。 - 多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
- 2/14 前实现并合入、文档与待补全项定稿。
- 加载配置时对
Others (可选)
- CI、文档、发布节奏等按需在本季度补充与更新。
补充说明 | Additional Notes
时间约束
- 全部特性需在 3 月 31 日前 完成。
各条补充说明
- 任务 1(VBench):首期支持离线视频文件 + VBench 维度,与 VBench 官方用法一致。
- 任务 2(性能与流控):需考虑多进程/多 worker 下的时间对齐;与 AIPerf 使用同一 trace 的验收标准(如时间误差阈值)需明确。
- 任务 3(MindSpore):MindSpore 本地离线推理,非服务化。
- 任务 4(裁判模型):裁判 API 的请求/响应协议对齐 OpenCompass。
- 任务 6(模糊匹配):默认开启模糊匹配。