post
Stochastic Depth
· ☕ 1 min read
SwinTransformerでは有効活用されてるらしい DeiTなどにも Dropoutがネットワークの幅を調整するのに対して, Stochastic Depth ではネットワークの深さを調節する 層のとても深いResNetといったモデルはBackpropagation時の勾配消失や,各パラメータが有効に学習しない,学習時間の増大などが問題点として上げら ...


MobileFormer
· ☕ 1 min read
TransformerとMobileNetを並列に接続 これって, MixFormer と同じ理由でうまく行ってる? → MixFormer参照 ...

SG-SQ
· ☕ 1 min read
SmoothGrad の $\sum$ の中を二乗したもの ...

Mask RCNN
· ☕ 1 min read
roi をencodeしたものをfeature map に投影する際, shapeが合わないので工夫する必要がある → ROI pooling と ROI Align (Mask RCNNはコッチ) mask-branchでmaskを生成 各画素ごとにクラス確率を計算 ROI pooling ROI Align bilinear補完を行う ...


Equalization Loss
· ☕ 1 min read
headはlossを小さく, tailはlossを大きくしたい 重み $w_i $を使ってlossを設計する (二値の場合) $L_{EQL}=-\sum_{j=1}^{C}w_{j}log(\hat{p_{j}}),$ $w_{j}=1-E(r)T_{\lambda}(f_{j})(1-y_{j})$ In this equation, E(r) outputs 1 when r is a foreground region proposal and 0 when it belongs to background. And fj is the frequency of category j in the dataset, which is computed by the image number of the class j over the image number of the entire dataset. And Tλ(x) is a threshold function which outputs 1 when x < λ and 0 otherwise. λ is utilized to distinguish tail categories from all other categories and Tail Ratio (T R) is used as the criterion to set the value of it TRを元に $\lambda$ を ...


SIFT
· ☕ 1 min read
輝度勾配を計算(矢印) ノイズを軽減するために中心に対してガウス分布かける 勾配の方向を8方向に量子化 → 8ベクトル B個のブロックがあれば, 全ブロック分concatして, 8Bベクトルが得られる 位置合わせなどに用いる / Panograpy ...


VRR
· ☕ 0 min read
...


Homography
· ☕ 1 min read
ホモグラフィ行列の推定 これで少なくとも必要条件は求まる $s \begin{bmatrix} x^{’} \ y^{’} \ 1 \end{bmatrix} = H \begin{bmatrix} x \ y \ 1 \end{bmatrix} = \begin{bmatrix} h_{11} & h_{12} & h_{13} \ h_{21} & h_{22} & h_{23} \ h_{31} & h_{32} & h_{33} \end{bmatrix} \begin{bmatrix} x \ y \ 1 \end{bmatrix}$ ...


活性拡散
· ☕ 1 min read
知識グラフ / GNN https://www.sciencedirect.com/topics/computer-science/spreading-activation#:~:text=Spreading%20activation%20is%20the%20name,on%20the%20associations%20among%20chunks. ...

Mercer's theorem
· ☕ 1 min read
積分作用素を定義 https://en.wikipedia.org/wiki/Mercer's_theorem https://yagami12.hatenablog.com/entry/2018/12/02/192137#Mercerの定理 ...


Better plain ViT baselines for ImageNet-1k
· ☕ 1 min read
The main differences from [4, 12 are a batch-size of 1024 instead of 4096, the use of global average-pooling (GAP) instead of a class token [2, 11 , fixed 2D sin-cos position embeddings [2, and the introduction of a small amount of RandAugment [3 and Mixup [21 (level 10 and probability 0.2 respectively, which is less than [12). These small changes lead to significantly better performance than that originally reported in [4. https://arxiv.org/pdf/2205.01580.pdf ...


スピアマン相関係数 
· ☕ 1 min read
todo https://webbeginner.hatenablog.com/entry/2020/06/26/120000#:~:text=2つの相関係数の違い&text=ピアソンの相関係数では%E3%80%81変数の値そのもの,順位を利用します%E3%80%82&text=正規分布に従うことを,を作ってい ...