論文
【論文メモ】Neural Networks and the Chomsky Hierarchy
· ☕ 5 min read
Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した 各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中 例えば, Transformer ...


【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?
· ☕ 3 min read
はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ 構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって ...


【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation
· ☕ 1 min read
評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない そこで, scene graphを用いた評価指標SPICEを提案 実際, 画像キャプショニングモデルではよく見かける指標となってきた 流れ ① 複数キャプションからscene graphを生成 scene graph ...


【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation
· ☕ 1 min read
モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とする イ ...


【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners
· ☕ 2 min read
グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成 入力について まず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とする そのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力 トーク ...


【論文メモ】Why do tree-based models still outperform deep learning on tabular data?
· ☕ 1 min read
なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文 1つ目: NNは高周波数成分の学習に弱い なので, 飛び値的なデータに弱い 一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い 詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver: ...


【論文メモ】Deformable Attention Transformer
· ☕ 1 min read
詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求める オブジェクトごとに受容野を歪めることができる ...


【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations
· ☕ 1 min read
輪講スライド 背景 Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 MoCo SimCLR SimSiam など Instance-wiseな⼿法における2つの問題点 1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク → **⾼密度な情報をエンコードしているとは⾔い難い ** 2- ペア間 ...


【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training
· ☕ 2 min read
はじめに SAMの改良 (SAM : Sharpness-Aware Minimization) Surrogate Gap Minimization Improves Sharpness-Aware Training 論文メモ 問題提起 SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ 例えば下の図では, 近傍 $f_p$について最適化すると, SAMの場合, 青に収束してしまう危険がある 本当に見るべきは以下に定義するsurrogate gap $h(x)$ $$h(x) := f_p(x) - f(x)$$ surrogate gap $h(x)$については, H ...


【論文メモ】RegionCLIP: Region-based Language-Image Pretraining
· ☕ 1 min read
問題点: CLIPは画像全体を用いるため, 物体検出には向かない そこで, 本論文ではCLIPをRegion-text matchingへと拡張した CLIPを用いた open-vocabularyな物体検出タスクが行える open-vocabulary object detection 関連研究としてViLDを挙げている ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation CVPR22 流れ [RPN](Resion Proposal Network)を用いて候補領域を探す RP ...


【論文メモ】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism
· ☕ 1 min read
Attentionはglobalでdynamic dynamicについては On the Connection between Local Attention and Dynamic Depth-wise Convolution しかし global→SwinTransformerを見るとそこまでViTの精度に関係なさそう dynamic→MLP-Mixerを見ると, MLPはstaticなので精度に関係なさそう そこでShiftViTを提案 上図のように, 入力の ...