論文 – 行李の底に収めたり[YuWd]

【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

📅 2022/8/24 · ☕ 1 min read

CVPR22 タスク: KB-VQA 質問画像に含まれていない知識を要する質問に回答するタスク例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない新規性知識グラフの構築は行わない scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用い ...

【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval

📅 2022/8/24 · ☕ 2 min read

Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正代名詞の解釈複数名詞への対応 → ノー ...

【論文メモ】Neural Networks and the Chomsky Hierarchy

📅 2022/8/17 · ☕ 5 min read

Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中例えば, Transformer ...

#論文

【論文メモ】Neural Networks and the Chomsky Hierarchy

【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?

📅 2022/8/16 · ☕ 3 min read

はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって ...

【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?

【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation

📅 2022/8/16 · ☕ 1 min read

評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えないそこで, scene graphを用いた評価指標SPICEを提案実際, 画像キャプショニングモデルではよく見かける指標となってきた流れ ① 複数キャプションからscene graphを生成 scene graph ...

【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation

【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

📅 2022/8/10 · ☕ 1 min read

モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とするイ ...

【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners

📅 2022/8/2 · ☕ 2 min read

グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成入力についてまず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とするそのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力トーク ...

【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners

【論文メモ】Why do tree-based models still outperform deep learning on tabular data?

📅 2022/8/1 · ☕ 1 min read

なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文１つ目: NNは高周波数成分の学習に弱いなので, 飛び値的なデータに弱い一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver: ...

#論文

【論文メモ】Why do tree-based models still outperform deep learning on tabular data?

【論文メモ】Deformable Attention Transformer

📅 2022/8/1 · ☕ 1 min read

詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求めるオブジェクトごとに受容野を歪めることができる ...

#論文

【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations

📅 2022/8/1 · ☕ 1 min read

輪講スライド背景 Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 MoCo SimCLR SimSiam など Instance-wiseな⼿法における２つの問題点 1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク → **⾼密度な情報をエンコードしているとは⾔い難い ** 2- ペア間 ...

【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations

【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

📅 2022/8/1 · ☕ 2 min read

はじめに SAMの改良 (SAM : Sharpness-Aware Minimization) Surrogate Gap Minimization Improves Sharpness-Aware Training 論文メモ問題提起 SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ 例えば下の図では, 近傍 $f_p$について最適化すると, SAMの場合, 青に収束してしまう危険がある本当に見るべきは以下に定義するsurrogate gap $h(x)$ $$h(x) := f_p(x) - f(x)$$ surrogate gap $h(x)$については, H ...

【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

Toronto Paper Matching System

📅 2022/7/31 · ☕ 0 min read

...

【論文メモ】RegionCLIP: Region-based Language-Image Pretraining

📅 2022/7/30 · ☕ 1 min read

問題点: CLIPは画像全体を用いるため, 物体検出には向かないそこで, 本論文ではCLIPをRegion-text matchingへと拡張した CLIPを用いた open-vocabularyな物体検出タスクが行える open-vocabulary object detection 関連研究としてViLDを挙げている ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation CVPR22 流れ [RPN](Resion Proposal Network)を用いて候補領域を探す RP ...

#論文