Directed Policy Gradient for Safe Reinforcement Learning with Human Advice

Directed Policy Gradient for Safe Reinforcement Learning with Human Advice ■

Helene Plisnier, Denis Steckelmacher, Tim Brys, Diederik Roijers, Ann Nowe