subword
· ☕ 1 min read
なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない subwordとは? 普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割 例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”} これにより, 語彙数の爆発を防ぐ 上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いも ...