post

情報エントロピー

📅 2022/2/20 · ☕ 1 min read

要件確率を用いたいある独立な事象について, 情報量は加法的でありたい → つまり, ある独立な事象

x, y

について,

f (x, y) = f (x) + f (y)

これらを満たすには, 積が加法的になれば良いので,

l o g

が使えそうだよって, 情報量を

f (x) = - l o g (p (x))

とするこの”情報量”についての期待値を計算したものをエントロピーと定義する

H [y | x

= -\sum_{x \in X} p(x) log(p(x)) ] ...

#post

Siamese Network

📅 2022/2/20 · ☕ 1 min read

画像分類：与えられた1枚の画像がどのクラスに属するのかを学習 Siamese Network：与えられた2枚以上の画像が、それぞれ異なるクラスに属するのか同一のクラスに属するのかを学習 https://qiita.com/koshian2/items/a31b85121c99af0eb050 自己教師あり学習ラベル無しデータを用いた教師なし学習の一種例えば指紋認証人

i

(クラス

i

) の人指し指は一つしかない普通, 教師あり学習は一つのクラスに大 ...

#post

Sentence BERT

📅 2022/2/20 · ☕ 1 min read

得られる表現の埋め込み空間上での距離的な関係を学習するネットワークを Siamese Networkと言います対照学習とは違う？ SimCLRは対照学習 SimSiamは類似度ベース https://speakerdeck.com/sansandsoc/simsiam-exploring-simple-siamese-representation-learning?slide=4 ...

#post

なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない subwordとは？普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”} これにより, 語彙数の爆発を防ぐ上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いも ...

#post

PageSpeed Insights

📅 2022/2/19 · ☕ 1 min read

#web ...

#post

magnitude

📅 2022/2/19 · ☕ 1 min read

最初にメモリ上に展開するため, めっちゃ速い OOV (Out-of-Vocabulary) に強いらしい似ているOOV同士は近い所に埋め込みたい (1) 似てる単語があったら, その単語に近くなるように埋め込みたい (2)

o o v_{d} (w) = [0.3 O O V_{d} (w) + 0.7 M A T C H_{3} (3, 6, w)

] (1) → 似ている単語は同じ感じにしたい＝ OOV (2) → 似てる単語があったら, その単語に近くなるように埋め込みたい = MATCH 与えられた単語に近い単語上位3つの平均を取る mag ...

#post

Class Activation Mapping

📅 2022/2/19 · ☕ 0 min read

...

#post

ABN: Attention Branch Network

📅 2022/2/19 · ☕ 1 min read

ベースモデルをfeature extractorとperception branchに分割して, その間にattentionを計算するattention branchを挟む ...

#post

eigenvalue

📅 2022/2/19 · ☕ 1 min read

ｱｲｶﾞﾝﾊﾞﾘｭｰ ...

#post

ViT

📅 2022/2/19 · ☕ 1 min read

モデルは「ViT-(1)/(2)」という名前で表され(1)にはモデルサイズB/L/Hが入ります。(2)にはパッチの大きさの16や14などが入ります。ViT-L/16であればViT-Largeで入力画像のパッチの1つの大きさが16であるモデルのことです。 https://qiita.com/omiita/items/0049ade809c4817670d7 ...

#post

SAM : Sharpness-Aware Minimization

📅 2022/2/19 · ☕ 1 min read

Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す

min_{w} L_{S}^{SAM} (w) + λ | w |_{2}^{2}

L_{S}^{SAM} (w)

は以下のように定義.

L_{S}

は通常の損失関数. 何でもOK

L_{S}^{SAM} (w) ≜ max_{| ϵ |_{p} \leq ρ} L_{S} (w + ϵ)

↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる最大化するεは ...

#post

Sequence to sequence learning with neural networks(2014)

📅 2022/2/19 · ☕ 2 min read

#Computer #機械学習 [*** — 概要 — ] [** どんなもの？] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトルと変換することができる. (入力時に語順を逆さにする) [** どういう系譜？先行研究との ...

情報エントロピー

📅 2022/2/20 · ☕ 1 min read

ラプラシアンピラミッド

📅 2022/2/20 · ☕ 0 min read

Siamese Network

📅 2022/2/20 · ☕ 1 min read

Sentence BERT

📅 2022/2/20 · ☕ 1 min read

subword

📅 2022/2/20 · ☕ 1 min read

PageSpeed Insights

📅 2022/2/19 · ☕ 1 min read

magnitude

📅 2022/2/19 · ☕ 1 min read

Class Activation Mapping

📅 2022/2/19 · ☕ 0 min read

ABN: Attention Branch Network

📅 2022/2/19 · ☕ 1 min read

eigenvalue

📅 2022/2/19 · ☕ 1 min read

ViT

📅 2022/2/19 · ☕ 1 min read

SAM : Sharpness-Aware Minimization

📅 2022/2/19 · ☕ 1 min read

Sequence to sequence learning with neural networks(2014)

📅 2022/2/19 · ☕ 2 min read