tz_openr1

PJ_0509

Check whether the GRPO really improves scores further using for SFT fine-tuned model.

Model: Qwen2.5-1.5B
Number Data: 1000(sft),1000(rl),1000(eval)
Epochs: 20(sft),1by1(rl)
Methods: SFT,GRPO

PJ_0426

Check whether the RLs really improves scores further using for SFT fine-tuned model.

Model: Qwen2.5-0.5B
Number Data: 400(sft,rl),400(eval)
Epochs: 10(sft),1(rl)
Methods: SFT,GRPO,CPPO,DRGRPO,DRGRPOCPPO,RAFT,REINFORCE

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tz_openr1

PJ_0509

PJ_0426

About

Uh oh!

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
PJ_0424.md		PJ_0424.md
PJ_0509.md		PJ_0509.md
README.md		README.md
colab-openr1-qwen2-5-0-5b-gsm8k-cppo-0424-0507.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-cppo-0424-0507.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-drgrpo-0424-0507.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-drgrpo-0424-0507.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-drgrpocppo-0424.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-drgrpocppo-0424.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-grpo-0424-0507.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-grpo-0424-0507.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-raftplusplus-0424.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-raftplusplus-0424.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-raftvanilla-0424.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-raftvanilla-0424.ipynb
colab-openr1-qwen2-5-0-5b-gsm8k-reinforcevanilla.ipynb		colab-openr1-qwen2-5-0-5b-gsm8k-reinforcevanilla.ipynb
openr1-qwen2-0-5b-gsm8k-cppo-0419.ipynb		openr1-qwen2-0-5b-gsm8k-cppo-0419.ipynb
openr1-qwen2-0-5b-math-cppo-0414.ipynb		openr1-qwen2-0-5b-math-cppo-0414.ipynb
openr1-qwen2-0-5b-math-drgrpo-0414.ipynb		openr1-qwen2-0-5b-math-drgrpo-0414.ipynb
openr1-qwen2-0-5b-math-drgrpo2-0414.ipynb		openr1-qwen2-0-5b-math-drgrpo2-0414.ipynb
openr1-qwen2-0-5b-math-grpo-0414.ipynb		openr1-qwen2-0-5b-math-grpo-0414.ipynb
openr1-qwen2-0-5b-math-grpo-0419.ipynb		openr1-qwen2-0-5b-math-grpo-0419.ipynb
openr1-qwen2-0-5b-math-sft-0413.ipynb		openr1-qwen2-0-5b-math-sft-0413.ipynb
openr1-qwen2-5-0-5b-gsm8k-pj-0424-results.ipynb		openr1-qwen2-5-0-5b-gsm8k-pj-0424-results.ipynb
openr1-qwen2-5-0-5b-gsm8k-reinforceplusplus.ipynb		openr1-qwen2-5-0-5b-gsm8k-reinforceplusplus.ipynb
openr1-qwen2-5-0-5b-gsm8k-sft-0424.ipynb		openr1-qwen2-5-0-5b-gsm8k-sft-0424.ipynb

Folders and files

Latest commit

History

Repository files navigation

tz_openr1

PJ_0509

PJ_0426

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages