This page looks best with JavaScript enabled

BERT

 ·  ☕ 1 min read
  • BERTの新規性はMasked LM(事前学習タスク)
    • 事前に行うタスク=「事前学習タスク(pre-training task)」
    • 解きたかったタスク=「下流タスク(downstream task)」
    • 渡されたパラメータを下流タスクの学習の際に固定するかしないか
      • 固定するなら「特徴量ベースのアプローチ」
        • 固定されたパラメータを持つモデルの部分は、特徴量抽出器の役割を果たす
      • 固定しないなら「ファインチューニングのアプローチ」
    • ELMo: 特徴量ベースのアプローチ vs BERT: ファインチューニングのアプローチ
  • Transformer ベースのモデル
    • 使用するのはTransformerのencoderのみ
  • CLSトークンとは
    • Transformerモデルは、CLSトークンの最後の隠れ状態をタスクに合わせたLinear層を通して予測値を出力します

    • https://www.ai-shift.co.jp/techblog/2145
    • クラス分類などでは, CLSに情報を集約させることで, MLP headによるクラス分類やlinear probeなどが行える
    • BERTは事前学習に特化しているからCLSが導入される
Share on

YuWd (Yuiga Wada)
WRITTEN BY
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web