CANINE
· ☕ 1 min read
分かち書きフリーのNLPモデル https://gyazo.com/b528d46973abfaf5596a10d8b36ae12c Transformerベース 入力はASCII ASCIIだとでかすぎるので, hashingによって圧縮 トークンは文字 なので, 事前学習時にただ単にmaskingしてもうまく行かない tokenizeしてsub-wordごとにmasking 日本語での実装例 https://github.com/octanove/shiba 機械学習 https://arxiv.org/abs/2103.06874 ...

Temporal Fusion Transformer
· ☕ 1 min read
Transformerベース 解釈可能性に秀でている Variable Selection とmulti-head attention 時系列予測 機械学習 ...


疲労
· ☕ 1 min read
「疲労が重なると、自分が工場にいる理由までも忘れ、こういう生活がもたらす最大の誘惑に負けそうになる。もうなにも考えないという誘惑だ。これだけが苦しまずにすむただひとつの方法だから。」 (冨原眞弓編訳『ヴェイユの言葉』みすず書房、P219) シモーヌ・ヴェイユ ...

dropout
· ☕ 1 min read
実質, 複数モデルのアンサンブルになる dropoutによってノードが選択されるので, 非活性化するニューロンが毎回の学習時に異なっていることで、それぞれのパターンで別々のモデルを学習していくことになり、つまり異なるモデルを学習している、とみなすことができます。 https://qiita.com/kuroitu/items/ ...

FLOPS
· ☕ 1 min read
FLoating point number Operations Per Second 1秒間に浮動小数点演算が何回できるか ...

帰納バイアス
· ☕ 1 min read
例えば線形回帰のinductive biasを考える.入力xと出力yは線形の関係であり,その目的関数は二乗誤差を最小化することにある.という制約が線形回帰のinductive bias.データの分布に何らかの制約(仮定)をおかないと,任意の値を求めるのは事実上不可能である. https://www.jonki.net/entry/2018/04/07/022743 学習データ以外に最初からもっている知識または仮説 ...

Feature Store
· ☕ 1 min read
#Computer ↑ 直で触っていると設計上良くない 「特徴量の一貫性を保証し、かつ再利用が可能なプラットフォーム」 ...


Vagrant
· ☕ 1 min read
構成情報を記述した設定ファイル (Vagrantfile) を元に、仮想環境の構築から設定までを自動的に行うことができる[3]。最新版v3はGoで開発されている。 https://ja.wikipedia.org/wiki/Vagrant_(ソフトウェア) ...

研究 > どうやったら質問が思いつくのか
· ☕ 1 min read
→ 「情報の欠落に気づく」 →「欠落している情報を明確化する」 細かい話はブラックボックス化して聞き、「何をしたか(What)」、「なぜ、それをする必要があるのか(Why)」、そして「結果として何が得られたか」だけをきっちり聞く。これらが説明不足だったり、「何をしたか(What)」と「なぜ、それをする必要があるのか(Why) ...