DAgger algorithm 📅 2022/6/26 · ☕ 1 min read 状態: $s \in S$ 行動: $a \in A$ 方策: $\pi$ $\pi : S \rightarrow A$ と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ... #模倣学習 #強化学習 #post