論文
【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
· ☕ 1 min read
CVPR22 タスク: KB-VQA 質問画像に含まれていない知識を要する質問に回答するタスク 例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない 新規性 知識グラフの構築は行わない scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用い ...


【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval
· ☕ 2 min read
Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正 代名詞の解釈 複数名詞への対応 → ノー ...

【論文メモ】Neural Networks and the Chomsky Hierarchy
· ☕ 5 min read
Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した 各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中 例えば, Transformer ...


【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?
· ☕ 3 min read
はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ 構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって ...


【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation
· ☕ 1 min read
評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない そこで, scene graphを用いた評価指標SPICEを提案 実際, 画像キャプショニングモデルではよく見かける指標となってきた 流れ ① 複数キャプションからscene graphを生成 scene graph ...


【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation
· ☕ 1 min read
モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とする イ ...


【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners
· ☕ 2 min read
グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成 入力について まず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とする そのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力 トーク ...


【論文メモ】Why do tree-based models still outperform deep learning on tabular data?
· ☕ 1 min read
なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文 1つ目: NNは高周波数成分の学習に弱い なので, 飛び値的なデータに弱い 一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い 詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver: ...


【論文メモ】Deformable Attention Transformer
· ☕ 1 min read
詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求める オブジェクトごとに受容野を歪めることができる ...


【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations
· ☕ 1 min read
輪講スライド 背景 Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 MoCo SimCLR SimSiam など Instance-wiseな⼿法における2つの問題点 1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク → **⾼密度な情報をエンコードしているとは⾔い難い ** 2- ペア間 ...


【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training
· ☕ 2 min read
はじめに SAMの改良 (SAM : Sharpness-Aware Minimization) Surrogate Gap Minimization Improves Sharpness-Aware Training 論文メモ 問題提起 SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ 例えば下の図では, 近傍 $f_p$について最適化すると, SAMの場合, 青に収束してしまう危険がある 本当に見るべきは以下に定義するsurrogate gap $h(x)$ $$h(x) := f_p(x) - f(x)$$ surrogate gap $h(x)$については, H ...


【論文メモ】RegionCLIP: Region-based Language-Image Pretraining
· ☕ 1 min read
問題点: CLIPは画像全体を用いるため, 物体検出には向かない そこで, 本論文ではCLIPをRegion-text matchingへと拡張した CLIPを用いた open-vocabularyな物体検出タスクが行える open-vocabulary object detection 関連研究としてViLDを挙げている ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation CVPR22 流れ [RPN](Resion Proposal Network)を用いて候補領域を探す RP ...