- バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性がある
- かといって, バッチサイズが小さい方が良いというわけでもなく,
- 学習率とバッチサイズをうまく調整する必要がある
- Don’t Decay the Learning Rate, Increase the Batch Size
- https://arxiv.org/abs/1711.00489
-
This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam
- ノイズスケール $g$には $g = \epsilon(\frac{N}{B}-1)$ という関係がある
- Nはサンプル数, Bはバッチサイズ, $\epsilon$は学習率
- バッチサイズをいくら大きくしても, 同程度に学習率を大きくすれば, ノイズスケールはほとんど変わらない
JavaScriptを有効にしてください
バッチサイズ
· ☕ 1 min read