【論文メモ】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism
· ☕ 1 min read
Attentionはglobalでdynamic dynamicについては On the Connection between Local Attention and Dynamic Depth-wise Convolution しかし global→SwinTransformerを見るとそこまでViTの精度に関係なさそう dynamic→MLP-Mixerを見ると, MLPはstaticなので精度に関係なさそう そこでShiftViTを提案 上図のように, 入力の ...


p4m群
· ☕ 1 min read
任意の並進操作 + 任意の90度回転操作を元とする集合が群であるとき, p4群と呼ぶ さらに鏡映操作についても群ならばp4m群と呼ぶ 一般にpn群は回転対称数が360°/n 回であり, 鏡映対称性が成り立つならばsuffixにmが付く ...

なぜerrnoが必要か
· ☕ 1 min read
例えばfopenなど, そもそも構造体やポインタを返すようなものだと, エラーハンドリングがしにくい じゃあ常にタプルっぽく返せばいいんじゃない? エラーハンドリングが必要ない場合, 普通のCだと非常に煩雑になり得る メモリの解放とかめんどいし そこで, グローバルなerrnoが設計された 現在の多くの言語ではタプルを返すことができるの ...

【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding
· ☕ 1 min read
通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しない そのようなモデルでは, 「画像にりんごはいくつあるか?」などといったVQAタスクすら解けない(可能性が高い) そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論し ...


ReferItGame
· ☕ 1 min read
画像-参照表現におけるデータセット 割と大きいデータセットみたい the game has produced a dataset containing 130,525 expressions, referring to 96,654 distinct objects, in 19,894 photographs of natural scenes. ゲーム形式でアノテーションされる アノテータは二人 二人でアノテーションを行う まずプレイヤーAがキャプションを考える 次にもうひとりのプレイヤーBがそのキャプションが正しいかを当てる BはAのキャプションが指している物体をクリ ...


PCA Color Augmentation (PCACA)
· ☕ 1 min read
AlexNetで使われたらしいData augumentation手法 そんなに使われてるイメージはない. 古代の手法?? Fancy PCA / PCACAとも言うらしい?(要出典) 画像中の色の分布を考慮したデータ拡張ができる 例えば, 明るいところは明るく, 暗いところは暗く調節できる 流れは簡単 $C\times H\times W$をflattenして, $C\times HW$にする 各チャネ ...

【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
· ☕ 1 min read
提案手法は主に2つの機構で構成される Multimodal mixture of Encoder-Decoder (MED) Captioning and Filtering (CapFilt): CLIPの使用するデータセットはnoisy なので, キャプションの取捨選択を自動で行う機構を導入 流れ ノイズを含む元のデータセットでMEDを学習 事前学習されたMEDを用いてCapFiltを実行 CapFiitによって得られたデータセットを用いて再度MEDを学習 MED Image-TextContrastiveLoss(ITC) 画像特徴 ...


Perspective-n-Point問題
· ☕ 1 min read
世界座標系における3D点群と, それらに対応する2D画像が与えられた場合において, カメラのポーズ推定を行う問題 カメラのポーズは平行移動と回転の6DOFで, Perspective-n-Point問題はPnPと略されることが多い P3Pは最低三点あれば解ける 一般化されたPnPを解くアルゴリズムは様々ある EPnP SQPnP: A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point ...

【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution
· ☕ 2 min read
AttentionとDepthwise-Conv(DwConv)は似ているよ, という論文 上図は画像をflatten or patchifyしたものがspatial方向であると捉えればOK (a): 畳み込み ある区間の画素値と複数チャネルを使って一つの埋め込みを生成 (c): DepthWise と local attention ある一つのチャネルに対して, 区間の画素値のみから生成 (Poin ...


NTK
· ☕ 1 min read
Neural Tangent Kernel 以下に示すようなカーネル $$k_{\mathrm{NTK}}(x_i, x_j) = E_{\theta \sim \N} \left\langle \frac{\partial f(x_i; \theta)}{\partial \theta}, \frac{\partial f(x_j; \theta)}{\partial \theta} \right\rangle$$ 特に, 入力をhypersphereに限定すると, MLPのNTKは $h_{\mathrm{NTK}}(\mathbf x_i^\top \mathbf x_j)$と内積の形で書ける 幅が無限にデカイ全結合層を考えると, 重みはほとんど初期値の近くしか動かず, このモデルはNTKによるカーネル回帰と同じ挙動をする(らしい) なので, NNの解析がかな ...