【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
· ☕ 1 min read
提案手法は主に2つの機構で構成される Multimodal mixture of Encoder-Decoder (MED) Captioning and Filtering (CapFilt): CLIPの使用するデータセットはnoisy なので, キャプションの取捨選択を自動で行う機構を導入 流れ ノイズを含む元のデータセットでMEDを学習 事前学習されたMEDを用いてCapFiltを実行 CapFiitによって得られたデータセットを用いて再度MEDを学習 MED Image-TextContrastiveLoss(ITC) 画像特徴 ...


Perspective-n-Point問題
· ☕ 1 min read
世界座標系における3D点群と, それらに対応する2D画像が与えられた場合において, カメラのポーズ推定を行う問題 カメラのポーズは平行移動と回転の6DOFで, Perspective-n-Point問題はPnPと略されることが多い P3Pは最低三点あれば解ける 一般化されたPnPを解くアルゴリズムは様々ある EPnP SQPnP: A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point ...

【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution
· ☕ 2 min read
AttentionとDepthwise-Conv(DwConv)は似ているよ, という論文 上図は画像をflatten or patchifyしたものがspatial方向であると捉えればOK (a): 畳み込み ある区間の画素値と複数チャネルを使って一つの埋め込みを生成 (c): DepthWise と local attention ある一つのチャネルに対して, 区間の画素値のみから生成 (Poin ...


NTK
· ☕ 1 min read
Neural Tangent Kernel 以下に示すようなカーネル $$k_{\mathrm{NTK}}(x_i, x_j) = E_{\theta \sim \N} \left\langle \frac{\partial f(x_i; \theta)}{\partial \theta}, \frac{\partial f(x_j; \theta)}{\partial \theta} \right\rangle$$ 特に, 入力をhypersphereに限定すると, MLPのNTKは $h_{\mathrm{NTK}}(\mathbf x_i^\top \mathbf x_j)$と内積の形で書ける 幅が無限にデカイ全結合層を考えると, 重みはほとんど初期値の近くしか動かず, このモデルはNTKによるカーネル回帰と同じ挙動をする(らしい) なので, NNの解析がかな ...

【論文メモ】Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem
· ☕ 1 min read
単語の埋め込みを一次元で行う TSPを解くだけ 論文中ではWord Tour と呼んでいる GBDT等の決定木ベース手法が解釈しやすいようにWord Tour を使うとうまくいく場合があるらしい 例えば, NNで特徴量を作った後に, Word Tourでクラスタの重心を一次元に埋め込んでGBDTに掛ける的な https://twitter.com/Py2K4/status/1545215820413865985 ...

Canny法
· ☕ 1 min read
かなり古い(1986年)エッジ検出手法 授業で使ってるチームがいたので気になって調べてみた 流れ ノイズをへらすため, ガウシアンフィルタ ソーベルフィルタを用いて画素値を微分し, 勾配と法線ベクトルを求める →ついでにこれで輪郭を抽出したことになる 抽出した輪郭線を細くしていく → ある画素 $x$に注目したとき, 法線方向に隣接する2点を ...


【論文メモ】Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection
· ☕ 1 min read
モデルを学習させることなく, 異常検知を行う 流れ 事前学習済みEfficientNetに正常データを流す モデルの中間層で抽出された正常データの特徴量を, 各層ごとに多次元正規分布で近似 得られた分布を正常データの分布と仮定し, マハラノビス距離を用いて異常検知 例えば下図だと, 32x112x112の特徴量をGlobal Average Pooli ...


SIGHUP
· ☕ 1 min read
ターミナルの終了時やハングアップによって送られるシグナル DHCPを作成する演習で, SIGHUPをハンドリングしろと言われてピンと来なかったが どうやら サーバプロセスの多くはSIGHUPを受け取るとプロセスを終了して再起動する https://atmarkit.itmedia.co.jp/ait/articles/1708/04/news015.html らしいので, 合点。 nohupを使えばSIGHUPがプロセスへ送られないようにできるらしい https://qiita.com/f0o0o/items/7f9dfaf3f7392c0ce52f ...

TailwindCSS
· ☕ 1 min read
最近, Tailwind + Hugoでポートフォリオを作り直した → https://yuiga.dev TailwindCSS めちゃんこ高速に書けるのでとても良い 感覚としてはキーバインドとか, スニペットに通じる キーバインドでスニペット貼ってる感覚 メンテナンス面はどうなの? https://tailwindcss.com/docs/reusing-styles#extracting-template-components によると Utility-Firstに則り, 「CSSを定義するのではなく, コンポーネント化しろ」とのこと なるほど, ここにV ...


【論文メモ】Representation Learning on Graphs with Jumping Knowledge Networks
· ☕ 1 min read
概要 隣接ノードからのaggregationだけでは, k層のGCNはただのrandom-walkと変わらない r.w = random-walk 濃い色のノードはInfluence Probabilityの高いもの 各ノードの影響範囲が大きくてもダメだし, 小さくてもダメ なので, 各層の出力をすべて使用し, モデルに適切な影響半径を決めさせるJumping Knowledge Ne ...