JavaScriptを有効にしてください

【論文メモ】Lifting the Curse of Multilinguality by Pre-training Modular Transformers

 ·  ☕ 1 min read


  • NACCL22

    • 多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在する
    • この「多言語の呪い」を対処するモデルとしてX-MODを提案
  • 概略

    • 言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせる
    • それ故, 拡張は容易で, 学習・推論時のコストはかからない
    • また, 新たな言語を追加するのも容易い


  • share型とX-Modを定量的に比較

    • 言語を増やしてもperplexity及びperformanceは悪化せず, むしろ成長する

  • pretrain時の学習データセットはCC100で, NLI, NER, QAで実験

    • 下流タスクはすべて英語でfine-tuningし, 評価は多言語で実施
    • 例えばQAだと, SQuADで学習し, XQuADMLQAで実験
  • 結構良いカンジ

    • 既知言語

    • 未知言語

  • 言語について

    • pretrainで使う言語と, 新たに追加する言語の2タイプ存在

共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web