Posts
Automatic Mixed Precision
· ☕ 1 min read
float16とfloat32を混ぜて(Mixed)計算することで, GPUのMEM使用率を抑えることができる 計算スピードも幾分速くなるらしい 略してamp https://qiita.com/Sosuke115/items/40265e6aaf2e414e2fea https://tawara.hatenablog.com/entry/2021/05/31/220936 ...

Huber loss
· ☕ 1 min read
外れ値に強く, MSEよりもロバスト性が高い ...

Distribution Alignment: A Unified Framework for Long-tail Visual Recognition
· ☕ 1 min read
Decoupling Representation and Classifier for Long-Tailed Recognition を引用 新規性は以下の2つ Adaptive Calibration Function Alignment with Generalized Re-weighting Adaptive Calibration Function 分類器の出力 $\boldsymbol{z}$を線形変換して重み付け + marginを加える Alignment with Generalized Re-weighting targetの確率に重み付け https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Distribution_Alignment_A_Unified_Framework_for_Long-Tail_Visual_Recognition_CVPR_2021_paper.pdf ...

iBOT
· ☕ 1 min read
BeiTと同様にトークンベース ...


SimSiam
· ☕ 1 min read
EMアルゴリズムとの関連 ↓ どうやらEMアルゴリズムと深い関係があるらしいことが論文中にも書いてある https://speakerdeck.com/sansandsoc/simsiam-exploring-simple-siamese-representation-learning?slide=17 ...


【論文メモ】Double Descent
· ☕ 1 min read
U字からlossが落ちていく減少 例えばシンプルな構造のニューラルネットワークと複雑なニューラルネットワークがあったとします。前者については従来から言われているように"under-fitting"と"over-fitting"からなるU字型の特性が観測できますが、後者は複雑にしてい ...


warmup
· ☕ 1 min read
MomentumやAdamといった移動平均を使うオプティマイザーなら、移動平均を取るための勾配の蓄積が足りないと, 学習の初期段階において値の信頼度が低い(よって変な値が出て精度を損ねる)ということも考えられます。 https://qiita.com/omiita/items/d24568a835da6911b01e ...


学習率
· ☕ 1 min read
cosアニーリング warm-restart cyclical-learning rate バッチサイズと深い関係がある 学習率の決め方 https://www.slideshare.net/TakujiTahara/20190713-kaggle-tokyo-meetup-lt-nn-no-gokigentori-tawara-155334755 ...


重み共有
· ☕ 1 min read
基本的にはsumを取れば良いらしい PyTorchだと普通に呼び出せばそのまま重みの共有になるらしい https://vasteelab.com/2022/01/31/post-1951/ http://neural.vision/blog/deep-learning/backpropagation-with-shared-weights/ ...


GemPooling
· ☕ 1 min read
初出 Fine-tuning CNN Image Retrieval with No Human Annotation そもそも, チャネルごとのPoolingがなぜうまく行くのか ...