Skip to content

Reinforcement Pretraining,也叫 RL in Pretrain,一次失败的尝试

License

Notifications You must be signed in to change notification settings

ShaoZhenLiu/RPT

Repository files navigation

基于 verl 的 RL in Pretrain 尝试,不过是在 VLM 上的。

  • 修改的代码大多都在 recipe/rpt 里面

  • 首先需要处理数据,需要首先下载 MMR1-SFT 数据集,然后运行 recipe/rpt/mmr1_sft_asr.py

  • 之后用 vllm 挂起奖励模型,具体来说,需要执行: recipe/rpt/scripts/start_judge_server.sh

  • 最后,执行 recipe/rpt/scripts/start_judge_server.sh 即可开始训练(记得修改脚本中的模型和数据路径)

本仓库还尝试了添加 sft loss,发现效果有所下降 🤡

之后还会来看看代码的,不过现在就先放着吧。

About

Reinforcement Pretraining,也叫 RL in Pretrain,一次失败的尝试

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published