JavaScriptを有効にしてください

subword

 ·  ☕ 1 min read
  • なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない

  • subwordとは?

    • 普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割
    • 例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”}
    • これにより, 語彙数の爆発を防ぐ
  • 上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いものはサブワード処理」と分けたい

    • いろんなアルゴリズムがあるらしい
      • BPE(Byte-Pair Encoding)
      • byte-level BPE
      • WordPiece
        • 特に, BERTではコイツが使われている
        • 上のBPEと似てる
        • 頻度ではなく, 尤度を最大化するようにマージ
      • Unigram
      • SentencePiece
共有

YuWd (Yuiga Wada)
著者
YuWd (Yuiga Wada)
機械学習・競プロ・iOS・Web