This page looks best with JavaScript enabled

バッチサイズ

 ·  ☕ 1 min read
  • バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性がある
    • かといって, バッチサイズが小さい方が良いというわけでもなく,
    • 学習率とバッチサイズをうまく調整する必要がある
      • Don’t Decay the Learning Rate, Increase the Batch Size
      • https://arxiv.org/abs/1711.00489
      • This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam

      • ノイズスケール $g$には $g = \epsilon(\frac{N}{B}-1)$ という関係がある
        • Nはサンプル数, Bはバッチサイズ, $\epsilon$は学習率
        • バッチサイズをいくら大きくしても, 同程度に学習率を大きくすれば, ノイズスケールはほとんど変わらない

https://qiita.com/koshian2/items/8d8f0197aab1779e096b

Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web