模倣学習 – 行李の底に収めたり[YuWd]

状態: $s \in S$ 行動: $a \in A$ 方策: $\pi$ $\pi : S \rightarrow A$ と定義累積的にデータセットを増やしながら方策を学習していく感じ誤差が少ないらしい ...