模倣学習
DAgger algorithm
· ☕ 1 min read
状態: sS 行動: aA 方策: π π:SA と定義 累積的にデータセットを増やしながら方策を学習していく感じ 誤差が少ないらしい ...