Skip to content

[Roadmap] AISBench 2026 Q1 Roadmap #140

@GaoHuaZhang

Description

@GaoHuaZhang

[Roadmap] AISBench Roadmap 2026 Q1

AISBench Roadmap 2026 Q1

路线图愿景 | Roadmap Vision

2026 Q1 将围绕多模态与生成测评性能与流控可复现性模型后端扩展评测能力增强(裁判模型)、图像编辑测评配置体验六个方向推进。

整体目标是建成 VBench 多模态生成(T2V/I2V)评测体系;实现与 AIPerf 对齐的基于时间戳的固定流控与调度,支撑可复现性能测评;新增 MindSpore 本地推理后端;支持用户配置自定义裁判模型对推理结果打分;接入 GEdit-Bench 完成图像编辑模型精度测评;为 --datasets / --models 提供模糊匹配能力,并通过统一文档与示例支撑社区协作与复用。

当前状态分析 | Current Status Analysis

项目定位:AISBench 当前作为 AI 推理与多模态评测基准,覆盖文本与多模态场景下的精度评测与性能测评。

已有能力

  • 模型后端:已支持 HuggingFace、vLLM 等本地推理(ais_bench/benchmark/models/local_models/),以本地加载、进程内推理形态对接 GenInferencer / BaseLocalInferencer。
  • 评测体系:基于 openicl 的评测 pipeline,支持数据集与 evaluator 配置,可对推理结果进行多维度评测。
  • 性能测评:支持 trace 数据集与 --mode perf 下的性能测试;配置通过 --datasets--models 指定,当前为精确匹配。
  • 配置与搜索:提供 --search 等能力用于查看配置路径;配置加载需写全名或先查路径。

缺口与诉求

  • 多模态生成(T2V/I2V)评测能力缺失,需接入 VBench 等标准评测体系。
  • 基于 timestamp 的请求流控与固定流控尚未实现,与 AIPerf 的 Fixed Schedule 语义未对齐,无法在可复现、可控负载下做性能对比。
  • MindSpore 作为本地推理后端尚未支持;自定义裁判模型(API/URL)对推理结果打分的评测能力待建设。
  • 图像编辑类精度测评(如 GEdit-Bench)未接入;配置需支持模糊匹配以提升使用体验。

Focus

  • Multimodal & Generation Evaluation:接入 VBench,建设 T2V/I2V 多模态生成评测体系。
  • Performance & Flow Control:对齐 AIPerf,支持基于 timestamp 的请求流控与固定调度,实现可复现性能测评。
  • Model Backends Expansion:新增 MindSpore 本地推理后端,丰富本地模型推理能力。
  • Evaluation & Judge Models:支持自定义裁判模型与图像编辑评测,增强评测维度与主观/客观打分能力。
  • Usability & Configuration:通过配置模糊匹配与统一文档示例,提升 AISBench 的易用性和上手体验。

阶段性目标 | Phased Goals

时间约束:全部特性需在 3 月 31 日前 完成。

时间节点 阶段性目标
2/14 前 配置模糊匹配(任务 6)交付;多模态(任务 1)、性能流控(任务 2)设计/标准确认
2/28 前 性能与流控(任务 2)、MindSpore(任务 3)、裁判模型(任务 4)阶段交付
3/15 前 多模态(任务 1)、性能流控(任务 2)、图像编辑(任务 5)主体完成
3/31 前 全部特性验收、文档与示例就绪

上述时间节点与后续各模块中的工作项进度相对应:2/14 侧重方案设计与模糊匹配落地,2/28 重点在性能流控/MindSpore/裁判模型的基础能力交付,3/15 完成多模态与图像编辑主体功能,3/31 完成整体验收与文档沉淀。

Multimodal & Generation (VBench) (任务 1)

  • VBench 多模态生成评测体系接入
    Goal: 建设新的评测体系,接入 VBench,支持多模态生成类(T2V、I2V)的多维度评测。
    Owner: @GaoHuaZhang
    Issue: 待补充
    PR: 待补充

    • 对接 VBench 的 prompt suite 与评测维度(如 subject_consistency、background_consistency、temporal_flickering、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality 等)。
    • ais_bench/benchmark/datasets/ 中新增 VBench 相关数据集/评测器,或调用 VBench 脚本/库产出与 AISBench 统一的结果格式;首期支持离线视频文件 + VBench 维度。
    • 2/14 前对接方式确认、T2V 维度开发启动;3/15 前 T2V 维度接入完成;3/31 前 I2V/首期规划维度完成、文档与示例就绪。

Performance & Flow Control (任务 2)

  • 基于 timestamp 的固定流控与调度支持
    Goal: 参考 AIPerf,支持基于 timestamp 的请求流量控制与固定流控,在可复现、可控负载下进行性能测评。
    Owner: @GaoHuaZhang
    Issue: 待补充
    PR: 待补充

    • Trace 支持 timestamp 及固定调度参数(如 fixed_schedule_auto_offsetfixed_schedule_start_offsetfixed_schedule_end_offset);模型侧提供 use_timestamp 等开关,按 trace 时间序列发送请求。
    • 与 AIPerf Fixed Schedule 语义对齐(单位、偏移、窗口过滤),文档注明兼容性与使用方式;发布《固定流控与时间戳调度》文档。
    • 2/14 前标准定稿、实现启动;2/28 前 trace timestamp 与固定调度联调可用、对齐文档初稿;3/15 前固定流控全流程验收、文档发布。

Model Backend (MindSpore) (任务 3)

  • MindSpore 本地模型推理后端
    Goal: 支持以 MindSpore 为推理后端的本地纯模型推理(本地加载、进程内推理,非服务化 API)。
    Owner: @muqing-li
    Issue: 待补充
    PR: 待补充

    • ais_bench/benchmark/models/local_models/ 下新增 MindSpore 实现(如 mindspore.py),与 HuggingFace、vLLM 同级;实现本地加载与 forward 推理,对接 GenInferencer / BaseLocalInferencer。
    • 2/28 前指定模型在 MindSpore 上跑通推理;3/31 前与 BaseLocalInferencer 对接完成、Q1 目标验收。

Evaluation Capabilities (Judge Models) (任务 4)

  • 自定义裁判模型评测能力
    Goal: 支持用户配置自定义裁判模型(API/URL),对模型推理结果进行打分,用于主观或维度化评测。
    Owner: @SJTUyh
    Issue: 待补充
    PR: 待补充

    • 定义裁判模型调用约定(输入:prompt/query、模型输出、参考答案等;输出:分数或维度分数);实现 JudgeModelEvaluator,通过 URL/API 调用外部裁判服务;配置支持 judge_model_url / judge_model_cfg
    • 2/28 前 API 协议与 JudgeModelEvaluator 实现、至少 1 类任务可用;3/31 前 Q1 交付范围(任务类型、数据集数量)达成。

Image Editing Evaluation (GEdit) (任务 5)

  • GEdit 图像编辑精度测评接入 [🙋 Help Wanted]
    Goal: 接入 Step1X-Edit 的 GEdit-Bench,支持图像编辑模型的精度测评,并与官方评测脚本对齐。
    Owner: @SJTUyh
    Issue: 待补充
    PR: 待补充

    • configs/datasets/datasets/ 中新增 GEdit 数据集,支持“原图 + 编辑指令 → 模型输出图”;实现或封装 GEdit 评测维度,与“自定义裁判模型”对接;与官方评测脚本(指标与流程)对齐并文档化。
    • 3/15 前数据集加载 + 评测维度对接、与官方脚本对齐说明;3/31 前至少 1 个图像编辑模型在 GEdit 上精度评测 + 文档。

Configuration & UX (Fuzzy Matching) (任务 6)

  • 配置模糊匹配与搜索支持 [🙋 Help Wanted]
    Goal: 在使用 --datasets / --models(及可选 --summarizer)时支持部分配置名(如 mooncake、qwen)自动搜索与匹配,减少配置路径记忆与查找成本。
    Owner: @SJTUyh
    Issue: 待补充
    PR: 待补充

    • 加载配置时对 --datasets--models(及可选 --summarizer)先精确后模糊匹配,与 match_files(..., fuzzy=True)pattern 语义一致;--search 与模糊匹配采用同一套规则。
    • 多匹配时保留“歧义提示并选用第一个”或“要求唯一匹配”策略并文档化。
    • 2/14 前实现并合入、文档与待补全项定稿。

Others (可选)

  • CI、文档、发布节奏等按需在本季度补充与更新。

补充说明 | Additional Notes

时间约束

  • 全部特性需在 3 月 31 日前 完成。

各条补充说明

  • 任务 1(VBench):首期支持离线视频文件 + VBench 维度,与 VBench 官方用法一致。
  • 任务 2(性能与流控):需考虑多进程/多 worker 下的时间对齐;与 AIPerf 使用同一 trace 的验收标准(如时间误差阈值)需明确。
  • 任务 3(MindSpore):MindSpore 本地离线推理,非服务化。
  • 任务 4(裁判模型):裁判 API 的请求/响应协议对齐 OpenCompass。
  • 任务 6(模糊匹配):默认开启模糊匹配。

References

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions