物体検出
【論文メモ】Pix2seq
· ☕ 1 min read
入力 : 画像 出力 : $(y_{\text{min}},x_{\text{min}},y_{\text{max}},x_{\text{max}},c)$ 普通のMLMと同じ感じで, 自己教師あり学習 $$\text{maximize}\sum_{j=1}^{L}\boldsymbol{w}_{j}\log P(\tilde{\boldsymbol{y}}_{j}|{\boldsymbol{x}},{\bm {y}}_{1:j-1})~{},$$ ...