非常感谢作者如此出色的工作!我在复现过程中遇到与simple_grpo项目中相同的问题,即在vllm的generate时无法传入token id作为输入序列,也就是本项目中vllm_engine.generate的关键词prompt_token_ids(rollout/base_rollout.py下process_one函数中定义generator_logps函数下的模型generate调用),通过查阅vllm的技术文档,貌似以token id作为输入的方式已经被废除?只能以文本的方式进行输入。想了解一下作者是否遇到过这一问题,能否提供相应的解决思路(这是否与vllm的版本相关,或许作者能否提供当时采用的vllm版本呢)。
再次感谢您的开源工作!