This page looks best with JavaScript enabled

Feature Pyramid Networks

 ·  ☕ 2 min read
  • Feature Pyramid Networks とは

Feature Pyramid Networks (FPN) は,前段のボトムアップなCNNの後段に,deepな層とshallowな層をトップダウンに接続した上で,更に各スケール階層同士をスキップ接続でつないで,砂時計型Encoder-Decoderを構成するの特徴集約のCNNバックボーンを拡張する構造である.FAIRの物体検出が得意な有名チームから提案されたことも手伝って,物体検出向けの標準的手法として定着した.

  • Feature Aggregation (特徴集約)とは

Feature Aggregation (特徴集約)とは,画像の局所特徴やmid-level特徴を集約して結合し,新たな多解像度特徴ベクトルを生成して使用する,画像認識における工夫である.

ディープラーニング以前から使われていた「特徴ピラミッドから特徴集約」のCNNによる(学習可能な)現代版が,Feature Pyramid Networkである.Feature Pyramid Networkのように「画像or特徴ピラミッドの各解像度特徴を1つのベクトルに集約して,SVMなどの予測器の特徴ベクトルとして用いる」というは,古くから画像認識・画像処理で行われてきた発想である.例えば,ステレオマッチングやオプティカルフロー,DPM (Deformable Part Models)におけるマルチスケールHOG特徴量などは,その代表例である.したがって,特徴ピラミッドの発想自体は新しくなく,むしろコンピュータビジョンでは伝統的に用いられてきた技術だと言える.

https://cvml-expertguide.net/terms/dl/cnn-backbone/feature-aggregation/


上記に記載した (a) のように画像の解像度を変更して複数回認識を実行する方法は複数の認識モデルが必要になるため学習・認識にかかるコストが高い。

(b) のように FCN(Fully Convolutional Network)から抽出された特徴マップを認識に利用する手法は特徴マップのサイズが小さいため、一つの特徴が見ている画像の領域が広くなってしまい小さい物体の認識精度が低い。(Faster R-CNN, YOLO がこれに該当する)

(c) のように多段の特徴マップをそれぞれを認識に利用する手法は小さい物体にある程度対応できる特徴マップの特徴抽出が不十分であるため、やはり小さい物体の認識精度が低い。(SSD がこれに該当する)

提案手法 (d) は FCN によって抽出した特徴マップをアップサンプリングしながら中間特徴マップに結合していくため、小さい物体の認識精度が向上する。

https://anieca.work/archives/246

Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web