sTRPO: Safe, Trust Region Policy Optimization for Constrained Reinforcement Learning

Accepted at NeurIPS 2025 Workshop on Aligning Reinforcement Learning Experimentalists and Theorists
Authors: Md Asifur Rahman, Risal Shahriar Shefin, Debashis Gupta, Sarra Alqahtani
Poster Link: https://drive.google.com/file/d/1eP5C35WeBim0hMl3UiK8Jf4KIX6IPE8J/view?usp=sharing
Paper Link: https://drive.google.com/file/d/14_1vpJ5JatJSEG17-cPzytPg71DBvZ7m/view?usp=sharing

Environment Setup

$ conda create -n strpo-venv python=3.10
$ conda activate strpo-venv
$ pip install -r requirements.txt

$ python main_distributional.py --env-name SafetyCarBuildingGoal1-v0 --adversary True --num-atoms 201 --v-min 0 --v-max 1000 --cvar-alpha 0.95

$ python -m sTRPO.main --env-name SafetyCarCircle1-v0 --unsafe-agent-path <saved-model-directory>

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
sTRPO		sTRPO
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
conjugate_gradients.py		conjugate_gradients.py
distributional_models.py		distributional_models.py
distributional_utils.py		distributional_utils.py
main.py		main.py
main_distributional.py		main_distributional.py
models.py		models.py
replay_memory.py		replay_memory.py
requirements.txt		requirements.txt
running_state.py		running_state.py
trpo.py		trpo.py
utils.py		utils.py