DAgger algorithm 📅 2022/6/26 · ☕ 1 min read 状態: s∈S 行動: a∈A 方策: π π:S→A と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ... #模倣学習 #強化学習 #post