論文
【論文メモ】Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective
· ☕ 4 min read
はじめに CVPR22 決定境界を描画し, 再現性と汎化性について定量的に考察した論文 決定境界の描画 (領域の決定) 如何に決定境界を描画するかが重要になってくる その上でまず, データ多様体 $\mathcal{M}$の近傍(on-manifold)を取るのか, $\mathcal{M}$から離れた領域(off-manifold)を取るのかを考 ...


【論文メモ】Test-Time Training with Self-Supervision for Generalization under Distribution Shifts
· ☕ 2 min read
PMLR20 trainとtestで分布が違う場合の再学習手法TTT(Test-Time Training)を提案 まずは普通に学習 次にモデルを前半(A)と後半(B)に分けて, 元のA + 新しいB’ のモデルで自己教師あり学習を行う headを取っ替えるイメージ (B→B') このとき, testサンプルを使用して自己教師あり学習を行う ...

【論文メモ】Energy-Based Learning for Scene Graph Generation
· ☕ 3 min read
はじめに Energy Based Modelを用いて画像からscene graphを生成する手法(フレームワーク)を提案 既存手法は次のようにクロスエントロピーでscene graphを生成する $$\log p(SG|I) = \sum_{i \in O} \log p(o_i| I) + \sum_{j \in R} \log p(r_j | I).$$ このとき, object $O$とrelation $R$が互いに独立に計算されている ここが問題で, 本来なら互いに弱い依存性があるはず し ...


【論文メモ】Your classifier is secretly an energy based model and you should treat it like one
· ☕ 1 min read
分類問題について, 生成モデルで用いられるEnergy Based Modelに基づいた学習手法を提案 一般的な学習 あるNNを $f_\theta(x)$とすると, 出力の $y$番目を $f_\theta(x)[y\rbrack$として, softmaxは以下のように表される $$p_{\theta}(y|{\bf x}) = \frac{\exp{\left(f_{\theta}({\bf x})[y\rbrack \right)} } { \sum_{y^{\prime}}\exp{\left(f_{\theta}({\bf x})[y^{\prime}\rbrack \right)} }$$ ここで, Energy Based Modelでは $$p_{\theta}(\boldsymbol{x},y) = \frac{\textrm{exp}(-E_{\theta}(\boldsymbol{x},y))}{Z_{\theta}}$$ と定義される ...


【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
· ☕ 1 min read
CVPR22 タスク: KB-VQA 質問画像に含まれていない知識を要する質問に回答するタスク 例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない 新規性 知識グラフの構築は行わない scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用い ...


【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval
· ☕ 2 min read
Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正 代名詞の解釈 複数名詞への対応 → ノー ...

【論文メモ】Neural Networks and the Chomsky Hierarchy
· ☕ 5 min read
Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した 各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中 例えば, Transformer ...


【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?
· ☕ 3 min read
はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ 構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって ...


【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation
· ☕ 1 min read
評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない そこで, scene graphを用いた評価指標SPICEを提案 実際, 画像キャプショニングモデルではよく見かける指標となってきた 流れ ① 複数キャプションからscene graphを生成 scene graph ...


【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation
· ☕ 1 min read
モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とする イ ...


【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners
· ☕ 2 min read
グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成 入力について まず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とする そのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力 トーク ...


【論文メモ】Why do tree-based models still outperform deep learning on tabular data?
· ☕ 1 min read
なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文 1つ目: NNは高周波数成分の学習に弱い なので, 飛び値的なデータに弱い 一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い 詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver: ...


【論文メモ】Deformable Attention Transformer
· ☕ 1 min read
詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求める オブジェクトごとに受容野を歪めることができる ...