Posts

【論文メモ】IA-RED2

📅 2022/5/28 · ☕ 1 min read

AdaViTから引用されているパッチを途中でdropさせることができるめちゃくちゃ速い強化学習っぽく学習 ...

Stochastic Depth

📅 2022/5/28 · ☕ 1 min read

SwinTransformerでは有効活用されてるらしい DeiTなどにも Dropoutがネットワークの幅を調整するのに対して, Stochastic Depth ではネットワークの深さを調節する層のとても深いResNetといったモデルはBackpropagation時の勾配消失や，各パラメータが有効に学習しない，学習時間の増大などが問題点として上げら ...

【論文メモ】MixFormer

📅 2022/5/28 · ☕ 1 min read

SwinTransformer の Local-window と, DwConv (PointWise・Depthwise) を並列に接続なぜ？ ...

#論文

MobileFormer

📅 2022/5/28 · ☕ 1 min read

TransformerとMobileNetを並列に接続これって, MixFormer と同じ理由でうまく行ってる？ → MixFormer参照 ...

#post

【論文メモ】CycleMLP

📅 2022/5/28 · ☕ 1 min read

従来のMLPモデルの問題点を克服 (Channel FC:性能が不十分、Spatial FC:計算量が多い) 任意の画像サイズに対応可能なCycle FCを提案 SwinTransformerよりも受容野が広いらしい ...

#論文

入力 : 画像出力 : $(y_{\text{min}},x_{\text{min}},y_{\text{max}},x_{\text{max}},c)$ 普通のMLMと同じ感じで, 学習. $$\text{maximize}\sum_{j=1}^{L}\bm{w}_{j}\log P(\tilde{\bm{y}}_{j}|{\bm{x}},{\bm {y}}_{1:j-1})~{},$$ ...

HandEye Calibration

📅 2022/5/23 · ☕ 1 min read

カメラ座標系とロボット座標系の変換 ...

#CV
#post

【論文メモ】ROAR

📅 2022/5/20 · ☕ 1 min read

何らかの基準でマスクして, 説明指標を評価マスクした画像がOODにならないように, マスクした画像を使って更に学習マスク方法 → 比較対象は Random / Sobel 比較されている手法は grad / Guided Backprop / Integrated Gradients / SmoothGrad / SG-SQ / VarGrad 最も良い結果が得られたのはSG-SQとVarGrad ...

SG-SQ

📅 2022/5/20 · ☕ 1 min read

SmoothGrad の $\sum$ の中を二乗したもの ...

#post

Mask RCNN

📅 2022/5/19 · ☕ 1 min read

roi をencodeしたものをfeature map に投影する際, shapeが合わないので工夫する必要がある → ROI pooling と ROI Align (Mask RCNNはコッチ) mask-branchでmaskを生成各画素ごとにクラス確率を計算 ROI pooling ROI Align bilinear補完を行う ...

#CV
#post

【論文メモ】FullGrad

📅 2022/5/18 · ☕ 1 min read

Saliency Map は Weak dependenceとCompletenessを満たす必要がある Weak dependence Saliency Map $S(x)$ と入力 $x$ に弱い依存関係がある状態ここでは, $x$ がどの集合に属しているかで $f(x)$ が定まる状態と定義 Completeness Saliency Map $S(x)$ と入力 $x$ から元のモデル $f(x)$が復元できる状態例えば, バイアス $\boldsymbol{b}$を使わずに生成した $S(x)$では復元でき ...

Equalization Loss

📅 2022/5/17 · ☕ 1 min read

headはlossを小さく, tailはlossを大きくしたい重み $w_i $を使ってlossを設計する (二値の場合) $L_{EQL}=-\sum_{j=1}^{C}w_{j}log(\hat{p_{j}}),$ $w_{j}=1-E(r)T_{\lambda}(f_{j})(1-y_{j})$ In this equation, E(r) outputs 1 when r is a foreground region proposal and 0 when it belongs to background. And fj is the frequency of category j in the dataset, which is computed by the image number of the class j over the image number of the entire dataset. And Tλ(x) is a threshold function which outputs 1 when x < λ and 0 otherwise. λ is utilized to distinguish tail categories from all other categories and Tail Ratio (T R) is used as the criterion to set the value of it TRを元に $\lambda$ を ...

【論文メモ】RelTransformer

📅 2022/5/17 · ☕ 1 min read

タスクはVRR (Visual Releationship Recognition) 既存手法はGNNなどが多いが, GNNは近傍しか見ておらず, 自分に近いところの関係しか見ていない例: 野球野球選手とバットだけを見るよりも, 周りのキャッチャーやピッチャーの情報もコンテキスト情報として有益着目物体 $n_s $と物体 $n_o$ と, その関係 $r$ のtripletを入力して, encode encodeしたtripletから, ...