Con base en el robot bípedo JD, cuyas características cinemáticas son mostradas en la siguiente figura, ha sido implementado un problema de Aprendizaje Por Refuerzo Profundo para el aprendizaje de la marcha bípeda.
El robot fue entrenado en el entorno de simulación multi-cuerpo Pybullet, utilizando el algoritmo Twin Delayed Deep Deterministic Policy Gradient (TD3), con un total de 300 000 epiodios de entrenamiento, el el siguente video se aprecian seis diferentes episodios de entrenamiento:
training_video.mp4
La curva de entrenamiento su muestra a continuación:
Después de 8 horas de entrenamiento en una computadora Nvidia Jetson Nano, el algoritmo de aprendizaje TD3 fue capaz de aprender a desplazarse en el entorno virtual, como se observa en el siguiente video:

