論文
【論文メモ】Graph Transformer: A Generalization of Transformer Networks to Graphs
· ☕ 1 min read
任意のGraphに適応可能な, 汎用Transformer Positional Encodingがラプラシアン行列の固有値で表現される ラプラシアン行列の固有値 $\lambda$は頻度・周波数的な側面を持つ → グラフ上のフーリエ変換・畳み込みでは $\lambda$が使われる (いつかまとめる→todo) todo https://arxiv.org/pdf/2012.09699v2.pdf ...


【論文メモ】SwinIR: Image Restoration Using Swin Transformer
· ☕ 1 min read
残差接続が大量にあるの面白い 多分だけど, 真っ黒から真っ黒への変換みたいな無意味な変換によって重みの学習を引っ張られたくないので, クソデカ残差を入れているのだと思う (オキモチ) SwinTransformerのおかげでパラメタ数はかなり減っている ...


Impact Factor
· ☕ 1 min read
学術雑誌の影響力を測る指標らしい (そんなのあるんだ) 今年の被引用数を過去2年分のPublicationで割る $\displaystyle {\text{IF}}_{y}={\frac {{\text{Citations}}_{y}}{{\text{Publications}}_{y-1}+{\text{Publications}}_{y-2}}}.$ ...

【論文メモ】Do Transformer Modifications Transfer Across Implementations and Applications?
· ☕ 1 min read
Transformerの改善案は大量にあるが, 本当に有効なのはどれだけあるの?という論文 結論 (有効な改善方法) 活性化関数: GLU+GeLU/Swish 正規化: RMS Norm パラメタ共有: デコーダの入出力における埋め込み表現を共有すると良い アーキテクチャ Mixture of Experts Transformer Synthesizer Product Key Memory ...

【論文メモ】CLIP
· ☕ 1 min read
CLIPによって, image↔textの特徴量変換が容易になったと言える → ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation ...


【論文メモ】Maximum Classifier Discrepancy for Unsupervised Domain Adaptation
· ☕ 1 min read
Domain Adaptation 従来手法 : sourceとtargetとで分布が違うはずなのに, ドメイン同士の境界(赤線)を基準に近づけようとしている → 分布の違いを考慮しつつ決定境界を修正する必要がある → GAN GAN風に学習する 2つのclassifierとそれらを生成するgenerator ...


【論文メモ】Manifold Mixup: Better Representations by Interpolating Hidden States
· ☕ 1 min read
どういうの? 無作為に選んだ層までは普通に計算して,その層の出力の複数をランダムに選んでMixup そのままその値を使って最終層まで計算&lossを計算し, 逆伝播 決定境界が滑らかになるらしい 簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい flatten=小さい部分空間で表現できるというこ ...