Posts

【論文メモ】DeepNet

📅 2022/3/30 · ☕ 2 min read

モデル更新量を見るモデル更新後, 出力がどの程度変化したか具体的には、まず、18レイヤーの通常の Post-LN トランスフォーマーを訓練させた場合、訓練が不安定であり、検証セットの損失関数の値（ロス）が収束しないことを示しています。このとき、「モデル更新量 (model update)」、すなわち、初期化時に比べて、モデルの更新後に、出力の値がどの ...

#論文

【論文メモ】Attention Bottlenecks for Multimodal Fusion

📅 2022/3/30 · ☕ 1 min read

https://arxiv.org/abs/2107.00135 ...

#論文

【論文メモ】Don't Decay the Learning Rate, Increase the Batch Size

📅 2022/3/30 · ☕ 0 min read

...

#論文

バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性があるかといって, バッチサイズが小さい方が良いというわけでもなく, 学習率とバッチサイズをうまく調整する必要がある Don’t Decay the Learning Rate, Increase the Batch Size https://arxiv.org/abs/1711.00489 This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam ノイズスケール $g$には $g = \epsilon(\frac{N}{B}-1)$ という関係がある Nはサンプル数, Bは ...

#post

【論文メモ】ViLBERT

📅 2022/3/30 · ☕ 1 min read

BERT同様, 転移学習モデルなので, IMGトークンやCLSトークンを導入する画像の埋め込みはどういう実装…? 例えばViTだと, 普通に行列 $E$を掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ) 各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算して ...

【論文メモ】gMLP

📅 2022/3/30 · ☕ 1 min read

https://ai-scholar.tech/articles/transformer/mlp_transformer ...

#論文

Focal Loss

📅 2022/3/30 · ☕ 1 min read

局在損失うまく識別できているクラスは軽視現時点で識別に苦労しているクラスを重視 ...

#post

シード42

📅 2022/3/29 · ☕ 1 min read

なぜシードは42が使われるのか？ダグラス・アダムスのSF小説「銀河ヒッチハイク・ガイド」に由来 Seven and a half million years later…. Fook and Lunkwill are long gone, but their descendants continue what they started “All right,” said Deep Thought. “The Answer to the Great Question…” “Yes..!” “Of Life, the Universe and Everything…” said Deep Thought. “Yes…!” “Is…” said Deep Thought, and paused. “Yes…!” “ ...

#post

Transformer

📅 2022/3/29 · ☕ 3 min read

encoder: self-attention → feed-forward NN decoder: self-atteiont → multi-head attention → feed-forward NN self-attention K,V,Qをsource内部で学習 attention K,V,Qをsource-target間で学習 multi-head 各単語ごとにK,V,Qを計算するのではなく, ヘッドの数だけ小さいK,V,Qを計算してconcat. 出力時に重みWをかけて次元を調整学習対象は各ヘッドの重みW_Q, W_K, W_V と出力W_O attention機構自体には ...

#post

BERT

📅 2022/3/29 · ☕ 1 min read

BERTの新規性はMasked LM(事前学習タスク) 事前に行うタスク=「事前学習タスク(pre-training task)」解きたかったタスク=「下流タスク(downstream task)」渡されたパラメータを下流タスクの学習の際に固定するかしないか固定するなら「特徴量ベースのアプローチ」固定されたパラメータを持つモデ ...

#post

PyTorchとメモリ

📅 2022/3/29 · ☕ 1 min read

必要なメモリ量必要メモリ量(byte) = (ニューロンの数 × Batch Size ＋パラメータ数) × 2 (data & grad) × 4(byte) https://nori-life-log.com/nnの学習で必要なgpuメモリを算出する重みを固定(freeze) 1 2 3 # freeze all layers for param in model.parameters(): param.requires_grad = False ...

Over-smoothing

📅 2022/3/29 · ☕ 1 min read

#GNN ...

#post

百兆の詩篇

📅 2022/3/28 · ☕ 1 min read

レーモン・クノー ...

#post