バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性がある かといって, バッチサイズが小さい方が良いというわけでもなく, 学習率とバッチサイズをうまく調整する必要がある Don’t Decay the Learning Rate, Increase the Batch Size https://arxiv.org/abs/1711.00489 This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam ノイズスケール には という関係がある Nはサンプル数, Bは ...
なぜシードは42が使われるのか? ダグラス・アダムスのSF小説「銀河ヒッチハイク・ガイド」に由来 Seven and a half million years later…. Fook and Lunkwill are long gone, but their descendants continue what they started “All right,” said Deep Thought. “The Answer to the Great Question…” “Yes..!” “Of Life, the Universe and Everything…” said Deep Thought. “Yes…!” “Is…” said Deep Thought, and paused. “Yes…!” “ ...
pythonのfloatはCでいうdouble np.float32はCのfloatと同じ 一方, np.float64はpythonのfloat float in Py == double in C == np.float64 == 8バイト np.float32 === float in C == 4バイト ...