- BERTの新規性はMasked LM(事前学習タスク)
- 事前に行うタスク=「事前学習タスク(pre-training task)」
- 解きたかったタスク=「下流タスク(downstream task)」
- 渡されたパラメータを下流タスクの学習の際に固定するかしないか
- 固定するなら「特徴量ベースのアプローチ」
- 固定されたパラメータを持つモデルの部分は、特徴量抽出器の役割を果たす
- 固定しないなら「ファインチューニングのアプローチ」
- 固定するなら「特徴量ベースのアプローチ」
- ELMo: 特徴量ベースのアプローチ vs BERT: ファインチューニングのアプローチ
- Transformer ベースのモデル
- 使用するのはTransformerのencoderのみ
- CLSトークンとは
-
Transformerモデルは、CLSトークンの最後の隠れ状態をタスクに合わせたLinear層を通して予測値を出力します
- https://www.ai-shift.co.jp/techblog/2145
- クラス分類などでは, CLSに情報を集約させることで, MLP headによるクラス分類やlinear probeなどが行える
- → BERTは事前学習に特化しているからCLSが導入される
-
JavaScriptを有効にしてください
BERT
· ☕ 1 min read