基于 verl 的 RL in Pretrain 尝试,不过是在 VLM 上的。
-
修改的代码大多都在
recipe/rpt里面 -
首先需要处理数据,需要首先下载 MMR1-SFT 数据集,然后运行
recipe/rpt/mmr1_sft_asr.py -
之后用 vllm 挂起奖励模型,具体来说,需要执行:
recipe/rpt/scripts/start_judge_server.sh -
最后,执行
recipe/rpt/scripts/start_judge_server.sh即可开始训练(记得修改脚本中的模型和数据路径)
本仓库还尝试了添加 sft loss,发现效果有所下降 🤡
之后还会来看看代码的,不过现在就先放着吧。