post
研究
· ☕ 1 min read
発見 遠藤さんが「発見」という表現を使っていた 機械学習の研究 → 実験屋に近い側面にもっと注目した方が良い気がする 対象の問題 原因と結果の問題 仮説生成型と仮説検証型 https://xn--w8yz0bc56a.com/hypothesis-making-proving/ 解体と演算子 自然言語処理の研究では、(1)新しいアーキテクチャやモデルを導入する、(2)アーキテクチャやモデルを改良したり、様々なタスクに適用したりして得られた小 ...

モード崩壊
· ☕ 1 min read
generatorの学習に失敗して、訓練データの(しばしば多峰性の)分布全体を表現できずに訓練データの最頻値(mode)のみを学習してしまいます。全国民の期待に応える能力がなく、とりあえず多数派のための政策をつくる、みたいなイメージですかね。 引用: https://qiita.com/triwave33/items/a5b3007d31d28bc445c2 GAN Wasserstein GAN ...

GAN
· ☕ 1 min read
CNNを使えば良い → DCGAN GANの問題点 学習が安定しない 勾配消失問題が発生する モード崩壊が起きる Wasserstein GANの導入によって改善することができる 損失関数でJSダイバージェンス KLダイバージェンス じゃなくてJSのほうが精度が出るらしい ただ, JSダイバージェンスのせいで勾配消失・モード崩壊が起きているとも言えるみたい なので, 損失関数 ...

Wasserstein GAN
· ☕ 1 min read
Wasserstein距離を用いるGAN Wasserstein距離は閉じた形で解が得られない なので, **iterativeに解を求める必要がある ** 普通のGANはDiscriminatorが偽物を見破れるように学習する 一方でWGANでは… DiscrimianatorはひたすらWasserstein距離を正確 ...

Wasserstein距離
· ☕ 1 min read
https://dreamer-uma.com/wassersteingan-theory/ ...

cellular automaton
· ☕ 1 min read
セル・オートマトン セルオートマトン(Cellular Automaton, CA)とは、空間に格子状に敷き詰められた多数のセルが、近隣のセルと相互作用をする中で自らの状態を時間的に変化させていく「自動機械(オートマトン)」です。 このようにCAは抽象的なモデルですが、様々な物理現象や生命現象のエッセンスを捉えたモデルとして古くから研究されてき ...

Neural Turing Machines
· ☕ 1 min read
https://arxiv.org/pdf/1410.5401.pdf チューリングマシンを機械学習で学習するイメージ なのでパターンを学習するのではなく, アルゴリズムを学習する感じ cellular automaton × 機械学習というのもアリ Neural Cellular Maze Solver https://umu1729.github.io/pages-neural-cellular-maze-solver/ ...

Neural Routing by Memory
· ☕ 1 min read
どのようにルーティング? 特徴量 $f$ をGlobal Average Poolingに通したものとメモリ ${\boldsymbol{m}}$とで近傍探索 (論文中ではユークリッド距離) メモリは各ブロックの先頭に配置 メモリはどう初期化するの? クラスタ分析で表現学習 (表現特徴を抽出) 今回はK平均法でクラスタの中心をメモリに採用 パラメタ数が爆増して ...


連合学習
· ☕ 1 min read
Federated Learning 学習済みモデルをデバイスに送信 モデルを運用 適宜, デバイス内部で学習 学習差分をサーバに送信 サーバでデバイスから送信されたモデルをマージ ...

RNNとチューリング完全性
· ☕ 1 min read
RNNはチューリング完全らしい 関連で Neural Turing Machinesというものもある BPは使えないけど, ノードを動的に増減させるタイプのRNNでもチューリング完全なものが構成できるらしい Turing Completeness of Bounded-Precision Recurrent Neural Networks https://openreview.net/forum?id=IWJ9jvXAoVQ ...

コルモゴロフ複雑性
· ☕ 1 min read
文字列の複雑性を記述することができる 例えば A: 010101010101010101010101010101010101010101010101010101010101 B: 110010000110000111011110111011001111101001000010010101111001 ↑ どっちが複雑と言えるか? → B Bが複雑だということをどう表現するか. 例えば, 人間であれば「説明が簡単かどうか」を指標にすることができる これをコンピュータに落とし込めば… [* 出力 $x$ を出力できるプログラムのうち, 最も文字数が短いプログラムの文字数] これをコルモゴ ...

Squeeze-and-Excitation
· ☕ 1 min read
Squeeze Global Average Poolingで各チャネルの平均 $z$を取る チャネル数を少しだけ減らす Excitation 各チャネルについて, 平均 $z$から元の次元に戻す ↑チャネルごとにこいつで重み付け 何が嬉しいの? 空間方向だけでなく, チャネル方向の関係を捉えることが出来る 例えば, ある特徴マップと別の特徴マップとで同じような部分に強い反応があれば, それらの関係を ...


KLダイバージェンス
· ☕ 1 min read
分布 $p(x), q(x)$ がそれぞれどの程度似ているかを測る指標 情報エントロピーの差を計算する $$KL(p||q) = \int_{-\infty}^{\infty}p(x)\ln \frac{p(x)}{q(x)}dx$$ 特徴 対称性がない それゆえ, 距離ではなく「擬距離」と呼ばれるらしい 対称性を持たせるために左右反転したものの平均を取ることがある $$D_{JS}(p||q) = \frac{KL(p||q) + KL(q||p)}{2}$$ これをJSダイバージェンスと呼ぶらしい ...