post
ReLUは如何に関数を近似するか?
· ☕ 2 min read
#* 関数近似 NNは基本的に関数近似器 活性化関数があることで非線形なものも近似することができる 活性化関数がなければ, ただの線形変換にしかならない + 層を重ねる意味がない ReLUはほとんど線形関数と変わらないけど, どのように関数を近似するのか? 大前提 : ReLUは折りたたみを表現できる なので, カクカクで任意の関数を近似できる $$f(x) = ...


ELU
· ☕ 1 min read
お気持ちとしてはReLUと同じ感じ ...


tqdm
· ☕ 1 min read
tqdmのプログレスバーはstderr出力 teeで出力したいなら, 出力先を変える ...

LambdaNetwork
· ☕ 1 min read
MSAと同様, d方向に分割して, 並列処理 行列計算に関しては torchのテンソル積 を参照 Linear Attention LambdaNetsはContentとPositionの2つを計算する Contentのみを出力とすれば, Linear Attentionと同等になる → Efficient Transformer ...


torchのテンソル積
· ☕ 1 min read
三次元 $\times $三次元の行列 1つ目をバッチサイズとして, バッチ単位で行列積 torch.bmm 4次元 $\times $3次元の行列 (j×1×n×m) と (kxm×p)の積は(j,k,n,p)となる バッチなど、行列以外の次元は、ブロードキャストされる。そのため、行列以外の次元はブロードキャストできるものでなければならない。例えば、tensor1が(j×1×n× ...


torch.bmm
· ☕ 1 min read
バッチサイズ単位で行列積 @も同様 https://pytorch.org/docs/stable/generated/torch.bmm.html#torch.bmm ...

Resnet
· ☕ 1 min read
bottleneck 1x1の畳み込みでチャネル数を減らす https://cvml-expertguide.net/terms/dl/cnn-backbone/resnet/ ...


バッチサイズ
· ☕ 1 min read
バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性がある かといって, バッチサイズが小さい方が良いというわけでもなく, 学習率とバッチサイズをうまく調整する必要がある Don’t Decay the Learning Rate, Increase the Batch Size https://arxiv.org/abs/1711.00489 This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam ノイズスケール $g$には $g = \epsilon(\frac{N}{B}-1)$ という関係がある Nはサンプル数, Bは ...

Focal Loss
· ☕ 1 min read
局在損失 うまく識別できているクラスは軽視 現時点で識別に苦労しているクラスを重視 ...

シード42
· ☕ 1 min read
なぜシードは42が使われるのか? ダグラス・アダムスのSF小説「銀河ヒッチハイク・ガイド」に由来 Seven and a half million years later…. Fook and Lunkwill are long gone, but their descendants continue what they started “All right,” said Deep Thought. “The Answer to the Great Question…” “Yes..!” “Of Life, the Universe and Everything…” said Deep Thought. “Yes…!” “Is…” said Deep Thought, and paused. “Yes…!” “ ...

Transformer
· ☕ 3 min read
encoder: self-attention → feed-forward NN decoder: self-atteiont → multi-head attention → feed-forward NN self-attention K,V,Qをsource内部で学習 attention K,V,Qをsource-target間で学習 multi-head 各単語ごとにK,V,Qを計算するのではなく, ヘッドの数だけ小さいK,V,Qを計算してconcat. 出力時に重みWをかけて次元を調整 学習対象は各ヘッドの重みW_Q, W_K, W_V と出力W_O attention機構自体には ...


BERT
· ☕ 1 min read
BERTの新規性はMasked LM(事前学習タスク) 事前に行うタスク=「事前学習タスク(pre-training task)」 解きたかったタスク=「下流タスク(downstream task)」 渡されたパラメータを下流タスクの学習の際に固定するかしないか 固定するなら「特徴量ベースのアプローチ」 固定されたパラメータを持つモデ ...