DAgger algorithm 📅 Jun 26, 2022 · ☕ 1 min read 状態: s∈S 行動: a∈A 方策: π π:S→A と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ... #模倣学習 #強化学習 #post