論文 – 行李の底に収めたり[YuWd]

【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

📅 2022/7/25 · ☕ 1 min read

通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しないそのようなモデルでは, 「画像にりんごはいくつあるか？」などといったVQAタスクすら解けない(可能性が高い) そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論し ...

【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

📅 2022/7/25 · ☕ 1 min read

提案手法は主に２つの機構で構成される Multimodal mixture of Encoder-Decoder (MED) Captioning and Filtering (CapFilt): CLIPの使用するデータセットはnoisy なので, キャプションの取捨選択を自動で行う機構を導入流れノイズを含む元のデータセットでMEDを学習事前学習されたMEDを用いてCapFiltを実行 CapFiitによって得られたデータセットを用いて再度MEDを学習 MED Image-TextContrastiveLoss(ITC) 画像特徴 ...

【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

【論文メモ】Large-Scale Adversarial Training for Vision-and-Language Representation Learning

📅 2022/7/21 · ☕ 1 min read

各モダリティについて摂動を加えて学習 ...

#論文

【論文メモ】Large-Scale Adversarial Training for Vision-and-Language Representation Learning

【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution

📅 2022/7/18 · ☕ 2 min read

AttentionとDepthwise-Conv(DwConv)は似ているよ, という論文上図は画像をflatten or patchifyしたものがspatial方向であると捉えればOK (a): 畳み込みある区間の画素値と複数チャネルを使って一つの埋め込みを生成 (c): DepthWise と local attention ある一つのチャネルに対して, 区間の画素値のみから生成 (Poin ...

#論文

【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution

【論文メモ】Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem

📅 2022/7/17 · ☕ 1 min read

単語の埋め込みを一次元で行う TSPを解くだけ論文中ではWord Tour と呼んでいる GBDT等の決定木ベース手法が解釈しやすいようにWord Tour を使うとうまくいく場合があるらしい例えば, NNで特徴量を作った後に, Word Tourでクラスタの重心を一次元に埋め込んでGBDTに掛ける的な https://twitter.com/Py2K4/status/1545215820413865985 ...

#論文

【論文メモ】Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection

📅 2022/7/15 · ☕ 1 min read

モデルを学習させることなく, 異常検知を行う流れ事前学習済みEfficientNetに正常データを流すモデルの中間層で抽出された正常データの特徴量を, 各層ごとに多次元正規分布で近似得られた分布を正常データの分布と仮定し, マハラノビス距離を用いて異常検知例えば下図だと, 32x112x112の特徴量をGlobal Average Pooli ...

【論文メモ】Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection

【論文メモ】Representation Learning on Graphs with Jumping Knowledge Networks

📅 2022/7/12 · ☕ 1 min read

概要隣接ノードからのaggregationだけでは, k層のGCNはただのrandom-walkと変わらない r.w = random-walk 濃い色のノードはInfluence Probabilityの高いもの各ノードの影響範囲が大きくてもダメだし, 小さくてもダメなので, 各層の出力をすべて使用し, モデルに適切な影響半径を決めさせるJumping Knowledge Ne ...

【論文メモ】Representation Learning on Graphs with Jumping Knowledge Networks

【論文メモ】Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

📅 2022/7/12 · ☕ 2 min read

NeRFで用いられるPositional Encodingについて, NTKによる分析を行った論文 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ NeRFのPositional Encoding をバンドパスフィルタと考える低周波数成分→高周波数成分への写像関数の学習 Positional Encodingを入れるかどうかでだいぶ精度が変わる例えば(b)の場合, (x,y) の座標値からRGBを復元するML ...

#論文

【論文メモ】Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

【論文メモ】Perceiver: General Perception with Iterative Attention

📅 2022/7/11 · ☕ 1 min read

Transformer を改善 Qを潜在変数とすることで, $L^2$の呪いから解放してあげる音声系 / 時系列予測にも適してる潜在変数をcentroidとして, 高次元の入力 $x$ をend-to-endでクラスタリングしてるとも捉えうるつまり, 入力 $x$をタグ付けしてるイメージ (と論文内で言っている) Positional Encoding 普通のPEの代わりに, フーリエ変換した特徴量を使 ...

#論文

【論文メモ】Perceiver: General Perception with Iterative Attention

【論文メモ】NeRF

📅 2022/7/11 · ☕ 1 min read

Positional Encoding 低周波成分である $(x,y,z,\theta,\phi)$から高周波成分である $(R,G,B,D)$を復元するため, 以下に示すPositional Encodingを通したあとにMLPに入力 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ この機構をNTKによって実験した論文→ Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains このPositional Encodingはフーリエ特 ...

#論文
#CV

【論文メモ】SAF: Sharpness Aware Training for Free

📅 2022/7/7 · ☕ 1 min read

todo ...

#論文

【論文メモ】SAF: Sharpness Aware Training for Free

ar5ivのコードを読む

📅 2022/7/7 · ☕ 1 min read

https://github.com/dginev/ar5iv 前提: arxivは投稿時, texをアップロードしなければならない ar5iv: 裏でクローラを回して, latexmlをキャッシュしてるだけっぽい最終的にHTMLに変換されたものをzipで固めてサーバ上で管理レンダリング時はzipを展開して独自のCSSで書き換えたものを表示 Rust製 ...

【論文メモ】Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

📅 2022/7/7 · ☕ 1 min read

VLN-DUET 概要 localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索各ノードには, viewから得られた特徴量を埋め込み表現として保持する行動 $a^\pi$は各ノードへの尤度によって表現され, ノ ...