MLP-Mixer

JavaScriptを有効にしてください

MLP-Mixer

📅 2022/2/14 · ☕ 1 min read

#post

パッチとチャンネルの次元を入れ替えてMLPを行う
ViTっぽく画像を分割して入力
Attentionも畳み込みもない

画像をP×Pのパッチに分割し、それぞれベクトルにEmbeddingする。

1.で取得したベクトル達を複数回Mixer Layer(token-mixing + cnannel-mixing)で処理する。

MixerLayerで処理されたベクトルをクラス分類処理する。

Mixer Layer
- 空間方向にmix → チャネル方向にmix → … って感じでごちゃまぜにする
  - ごちゃまぜ＝全結合
- VisionTransformerの2/3のパラメータで同程度の精度が出る
- 学習時間・スループットに優位性がある
新たな帰納バイアスの可能性

https://qiita.com/kanataken/items/0b48b7af0187b7538385
機械学習

著者

YuWd (Yuiga Wada)

機械学習・競プロ・iOS・Web

2022年12月25日

【合格体験記】1週間程度で応用情報に受かるコツ

はじめにこの記事は慶應理工アドベントカレンダー2022の25日目の記事です. ← 24日目 (アドカレが全て埋まってくれて非常に嬉しい！！！) 導入はじめましての方、はじめまして。2019年に慶應理工へ入学し、その後情報工学科に進学して今現在B4、無事ストレートでの卒業ができそうなYuWdと申します。この度、なぜか10日程度の
2022年12月11日

Distance CorrelationとPartial Distance Correlation について

概要 pearsonの相関係数は線形な関係しか捉えることが出来ない. そこで, 点同士の距離を用いたDistance Correlationという相関係数が提案された. さらに, Distance Correlationを拡張し, 内積の期待値が共分散の二乗となるようなヒルベルト空間を定義したPartial Distance Correlationが提案されている.
2022年12月07日

【超具体的に】慶應理工の4年間を振り返る

この記事は慶應理工アドベントカレンダー2022の7日目の記事です. ← 6日目 | 8日目 → この記事の読み方/想定読者についてご自由にお読みください。記事自体結構長いので、ご自身の興味のあるところだけ読んでもらっても構いません。目次から気になるところを見てもらえると嬉しいです。(もちろん通しで読んでもらうのが一番嬉しい。) 想定
2022年12月01日

慶應理工のアドカレ文化を遺したい

はじめにこの記事は慶應理工アドベントカレンダー2022の1日目の記事です. 導入はじめましての方、はじめまして。2019年に慶應理工へ入学し、その後情報工学科に進学して今現在B4、無事ストレートでの卒業ができそうなYuWdと申します。この度、慶應理工アドベントカレンダー2022というものを開催しました！！！本アドカレは去
2022年11月24日

How to create Matterport3D segmentation images?

Intro The other day, one of my labmates needed to make a segmentation of Matterport3D. He asked for help, and I got involved in creating the segmentation. However, it turned out to be a real struggle. We were not used to 3D mesh models. After several weeks, we completed the code to create a semantic segmentation image for Matterport3D. How to create Matterport3D segmentation images Matterport3D provides access to 3D segmentation but does not give users an easy way to access 2D. Matterport3D data only provides point clouds and meshes labeled by ground truth, and the user must add color directly to the point clouds and meshes to create 2D segmentations. We, therefore, wrote code using Matterport3DSimulator to place a camera for a given scan_id and viewpoint_id and create a segmentation from the original ply file. When we run our code, we get the following image. (I concatenated the obtained images and converted to a gif) Matterport3DSimulator takes a total of 36 pictures: 12 at the top, 12 at the perimeter, and 12 at the bottom.
2022年11月12日

【Docker】M1MacでJUMAN・KNPを動かす

はじめにどうしても手元のM1 MacでKNP・Juman++を動かしたいとき, ごく稀にありますよね. そういうときにパッとDockerfileでも書いて, knpやjumanをDocker上で動かそうとすると, なぜか以下のようなエラーが吐かれることがあります. 1 cc: error: unrecognized command-line option '-m64' とか 1 cannot guess build type; you must specify one ということで, M1 Macでも動く
2022年11月08日

【ABC217 E問題】セグ木にindexを保持させるテク

はじめに競プロを1年以上サボっているYuWdです. 長らく競プロから遠ざかっていたのですが, 今日から気楽に競プロを再開しようと思います. 手始めに今日は, サボり期間で受けていなかったコンテストを解いてみました. (ABC217) しかし, 解いてみた所感として, 思考力とやらはそこまで廃れきってはいないようなのですが, どうやら競プロの"
2022年10月24日

【tmux + zsh】Ctrl-Dでセッションをdetachする

はじめに tmuxとは俗に言う端末多重化ソフト(Terminal Multiplexer) のこと. terminalを複数のセッション, ウィンドウ, ペインに分割して使用することができる代物である. ターミナルを終了してもセッションは維持されるので, sshで学習を回す際に便利である. tmuxでは通常のC-dでセッションがexitされてしまうのだが, こ
2022年10月23日

【PyTorch】「CUDA error: device-side assert triggered」解決の手引き

はじめに PyTorchにて, “RuntimeError: CUDA error: device-side assert triggered"というエラーに出くわすことがあるネットに転がってるモデルで発生すると特に厄介である (自分が作った沼ではないので…) またMAEでのマスク処理のような, テクニカルな処理を行う場合などにも頻発再現性が取れず, 出力されるエラー内容も二転三転. 一定
2022年10月22日

【巨大データ】gdownの「Access denied」問題は諦めよう

TL;DR クソデカファイルをGoogle Driveからダウンロードするときは, gdownではなくcurl直打ちでダウンロードしようはじめに Google Drive内の50GBほどあるデータをgdownでダウンロードしようとすると以下のエラーが出た Access denied with the following error: Too many users have viewed or downloaded this file recently. Please try accessing the file again later. If the file you are trying to access is particularly large or is shared with many people, it may take up to 24 hours
2022年10月10日

【摩訶不思議】azcopyはなぜ速い？

TL;DR azcopyとは, Azure内のblobを操作するためのツールなのだが, これを使えば摩訶不思議. なぜかwgetよりも快適にblobをダウンロードできる. azcopyがなぜこんなにも速いのか誰か教えてくれ仮説: azcopyはコネクションを大量に張る + サーバを分散させている導入: wgetが遅い問題 ORTの再現実験のため,
2022年10月05日

日本語版Image Captioningの学習・推論コードを提供する

ひょんなことから最近Image Captioning(画像キャプション生成)を触っているだが, ググってもググっても日本語でImage Captioningしてる人があまりに居ない… コードを検索してもヒットしたのはこの子だけ…🤔 (しかもChainer …) https://github.com/yuyay/chainer_nic 日本語での画像キャプション生成界隈はプレイヤ
2022年09月24日

【相関係数】Pearson・Spearman・Kendallの使い分け

ピアソン $$ r_{xy} = \frac{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x}) (y_i - \overline{y})}}{\sqrt{{\displaystyle \sum_{i = 1}^n (x_i - \overline{x})^2}} \sqrt{{\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}} = \frac{s_{xy}}{s_xs_y} $$ データ(X,Y)が連続で正規分布に従っていることが前提なので外れ値に弱いスピアマン $$ \rho_{xy} = \frac{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})(R(y_i) - \overline{R(y)})} {\sqrt{\sum_{i=1}^{n}(R(x_i) - \overline{R(x)})^{2}\cdot\sum_{i=1}^{n}(R(y_i)-\overline{R(y)})^{2}}} = 1 - \frac{6\sum_{i=1}^{n}(R(x_i) - R(y_i))^{2}}{n(n^{2} - 1)} $$ $R(x)$は $x$の順位順位をそのままピアソンの式に当てはめるイメージ正規分布・連続という仮定がない分使い勝手が良いケンドール $$ \tau_{xy}
2022年09月16日

【TeamViewer】sshでパスワードを変更する

TeamViewerでパスワードがわからなくなったどうやらsshで入れるならパスワードを変更できるらしい sudo teamviewer passwd [password] で任意のパスワード[password]に変更可 1 2 3 teamviewer info sudo teamviewer passwd [password] teamviewer info
2022年09月15日

【ray】@remoteがメモリを大量に食う時はray.put()を使おう

はじめに rayとは → https://github.com/ray-project/ray 分散並列処理を簡単に書けるフレームワーク ray.remoteは怖い @ray.remoteが付された関数が使用するオブジェクトは, 呼び出される都度内部でray.put()が呼ばれ, データがメモリ上に展開される若干この仕様が厄介で, ray.get()なんかを使うと, 同じオブジェクトを何度もメモリ上に展
2022年09月08日

pycocoevalcapのMETEORがバグる (self.meteor_p.stdin.flush)

なぜかpycocoevalcapでMETEORの計算が止まる問題どうやらself.meteor_p.stdin.flush() あたりで止まっているらしい結論から言えば, 俺の場合キャプションに\nが入っていたせいだったそもそもCOCO captions のキャプション自体結構汚いので注意変な改行入ってたり, キャプションがなぜか6つあったり
2022年09月05日

Stochastic Gradient Langevin Dynamicsを理解する

はじめに MCMCの一種目標: ある分布 $\pi(x)$からのサンプリングを行いたい Metropolis-Hastingsアルゴリズム (MH) Hamiltonian Monte Carlo (HMC) Langevin Dynamics (Metropolis-adjusted Langevin Algorithm) Stochastic Gradient Langevin Dynamics (SGLD) の順に見ていくと理解しやすい Metropolis-Hastings Metropolis-Hastingsについては既知のもとする提案分布 $q(z)$を元に判定関数を用いて受容・棄却を行うMCMC cf.
2022年09月05日

ハミルトニアン

解析力学において, ハミルトニアンとは「系のエネルギーを座標と運動量で表したもの」系のエネルギー自体を表すため, 時間変化せず時間 $t$に依存しない $\mathcal{K}$を運動エネルギー、 $\mathcal{U}$をポテンシャルエネルギーとして $$H := H(q,p;t) =\mathcal{K}(p)+\mathcal{U}(q)$$ ハミルトニアンの正準方程式運動ベクトル $p_r$と座標ベクトル $q_
2022年09月04日

必要なものだけpip freezeする方法

pipreqsという非常に便利なライブラリが存在する pipreqs . だけでimportされているライブラリだけを出力してくれるマジで便利例 pipreqsを使えばこれが出力される 1 2 3 4 5 6 7 8 9 10 11 12 ❯ pipreqs . && cat requirements.txt colored_traceback==0.3.0 h5py==3.7.0 matplotlib==3.5.3 nltk==3.7 numpy==1.23.2 Pillow==9.2.0 pycocoevalcap==1.2 skimage==0.0 torch==1.8.2+cu111 torchvision==0.9.2+cu111 tqdm==4.64.0 pip freeze だとこれ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
2022年08月31日

「AのB」問題

名詞句「AのB」は意味が多い・曖昧すぎて, 非常に解析しにくい NLP界隈では「AのB」の怖さを徹底的に叩き込まれるらしい先生曰く, 読み方は ✅ 「エー→のビー」 ❌「エー⤵のビー」らしい KNPを作った京大黒橋研の論文国語辞典を用いた名詞句「AのB」の意味解析名詞に必須格の考え方を持ち込み, 国語辞典から「AのB」の解析=分類を試
2022年08月27日

Energy Based Model

Energy Based Model 生成モデルによく用いられる拡散モデルとも関係が深い分類回帰問題についてはYour classifier is secretly an energy based model and you should treat it like oneを参照 GANやVAE同様, データ $x$は何らかの高次元確率分布 $p(x)$からサンプリングされたものと仮定する EBMでは以下のように確率分布 $p(x)$を仮定し, $E_{\theta}(\boldsym
2022年08月26日

述語項構造

述語項構造とは、何がどうした、という述語とその項からなる構造のことである。 https://pyknp.readthedocs.io/en/latest/usage.html 「述語」に対して, 「項」と「格」が接続されている引用: https://www.scribd.com/archive/plans?slideshare=true tips 述語項構造はJUMAN++とKNPで取り出せる JUMAN++はRNNベースの形態素解析ツール KNPは構文・格・照応解析システム Pythonからも使える https://pyknp.readthedocs.io/en/latest/ 両者をDockerから使えるように
2022年08月26日

Peter Anderson

すげえ人 SPICE SPICE: Semantic Propositional Image Caption Evaluation REVERIE REVERIE - Remote Embodied Visual Referring Expression in Real Indoor Environments Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Sim-to-Real Transfer for Vision-and-Language Navigation など, めちゃくちゃよく見る論文の著者今はGoogleにいるらしい
2022年08月24日

コピュラ (copula)

copula 別名: 「繋辞」文の主語と述語を結ぶための品詞. つまり, X=Yの形式を作る品詞例日本語: 「だ」「です」…etc 英語: be動詞, become … etc 「Y＝Xと交換可能であり、2つの要素が一致すること」を指定（してい）、「Y＝Xとすることができず、YがXの属性を表すこと」を措定（そてい）と呼ぶ。これらを区別して表現する言語
2022年08月22日

scrapboxとHugoを同期させる

Scrapboxと個人ブログ(Hugo)を同期させるようにした. scrapboxとクローラでも言及したが, 空のリンクに検索がヒットするのはよくないと思い, 同期を始めた. scrapbox自体は書き心地やUXが最高で手放したくないため, 一部ページを同期させ, 正しく検索結果が載るか試してみる. コードは以下に示す通り. scra
2022年08月20日

scrapboxとクローラ

適当なページをcurlするとわかるが, scrapboxでは①「俺らが見てるページ」と②「クローラが見てるページ」が違う ①はServiceWorkerがブラウザ内で動的に生成しているもの ②はかなり簡素で, 本文のみがベタ書きされたものであり, 被リンクや1hop-linkなどは特に記述されないここが問題で, ②は内部リンクを削
2022年08月16日

Google: 何がなんでも爆速でGoogle検索結果に載せる

/nwtgck/管理外のWebサイトをGoogleの検索結果に載せたいはマジだった redirectサーバはサブドメインでもOK redirect先が同じドメインでもOKみたい概要とりあえず301を返してリダイレクトさせるようなリンクを作って, そいつらを登録したsitemapをgoogle search consoleに投げれば爆速でイ
2022年08月16日

Vuforia: ARマーカーは非対称な配置が精度を上げる

Vuforiaのマーカー検出精度はゴミ出来るだけARマーカーの検出精度を上げたい Vuforiaは何を見てマーカーを判断しているのか？コーナー検出っぽいのやって特徴量を抽出してる模様 https://library.vuforia.com/objects/best-practices-designing-and-developing-image-based-targets なるだけ特徴量をまばらに(=対称性を持たせない様式で)配置すると良いようだ下の図はopencvでもvuforiaでも簡単に使えるARマーカ
2022年08月16日

GitHub: 自分のIDの入った他人のコードを探す

username -user:usernameで検索するとドバーッと出てくる例: yuigawada -user:yuigawada https://github.com/search?o=desc&p=1&q=yuigawada+-user%3Ayuigawada&s=indexed&type=Code
2022年08月16日

Golang: appendの挙動

1 2 s := append(str[:j], hoge...) s = append(s, str[j:]...) こういうコードでバグるときがあるそもそもappendとはどういうものか？ append(str[:j](https://scrapbox.io/yuwd/%3Aj),hoge...)をすると, appendはまずcap(str)を見る cap(str)にhogeが入りきらないとわかると, より長い配列を作成
2022年08月15日

日本語キャプションデータセット

STAIR MSCOCOにキャプションを付与全部で820,310件のキャプション http://captions.stair.center/ Yuya Yoshikawa, Yutaro Shigeto, and Akikazu Takeuchi, “STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset”, Annual Meeting of the Association for Computational Linguistics (ACL), Short Paper, 2017. YJ Captions 26k Dataset こちらもMSCOCOにキャプションを付与したもので, ACL2016 キャプション数がSTAIRの1/6程度 https://github.com/yahoojapan/YJCaptions Takashi Miyazaki and Nobuyuki Shimizu. 2016. Cross-Lingual Image Caption Generation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1780
2022年08月15日

About Me (Yuiga Wada, YuWd, 和田唯我)

Yuiga Wada (和田唯我) @YuigaWada (alias: YuWd) 慶應義塾大学理工学部情報工学科 B4 Computer Science | Philosophy | Literature Blog / Twitter / GitHub ブログを読んでほしい(切実) Skill Swift / Objective-C Python / PyTorch Rust Golang C++ / C C# OCaml Typescript: Vue, Nuxt, … etc Java Javascript psql Major Machine Learning Computer Science Fav & Hobby Philosophy Heidegger Husserl Literature Haruki Murakami Osamu Dazai Kobo Abe Anime Attack on Titan JOJO Programing 競プロ (AtCoder, Highest: 1545) iOS Web Frontend & Backend System Programming … ? Machine Learning (PyTorch) Survey paper 機械学習 Work iCimulator: iCimulator simulates camera functions on iOS Simulator with images, videos, or your MacBook Camera. (Swift) PolioPager: A flexible TabBarController library with search tab like SNKRS (Swift) CallSlicer : A tweak that enables your Apple Watch to
2022年08月10日

最適輸送問題

輸送コスト $C_{i,j}$と輸送量 $P_{i,j}$の積を最小化これにエントロピー項のついた, 「エントロピー付き最適輸送コスト」問題になると, Sinkhorn-Knoppアルゴリズムが使えるまた, 双対問題はargminではなくargmaxとなる https://www.slideshare.net/joisino/ss-249394573?from_action=save tips 最適輸送はKLよりも良いことずくし最適輸送は距離構造を利用できる分布の
2022年08月03日

scrapboxのcli-viewer作った

Golangでなにか作ろうということで作ってみた https://github.com/YuigaWada/scrapbox-cli install → go install github.com/YuigaWada/scrapbox-cli/sbox@latest viewerとしての最低限の機能は作ったレンダリング機能 bold → 太文字 hashtag → 背景青 link-color → 青文字リンク機能下の選択スペースから何hopでもリンク辿れる goroutineで読み込むためI/Oをブロックしない検索機能タイトルで検索可
2022年08月02日

競プロ

貪欲 deque スタックキューグラフ化 (Graph) BFS DFS Bit全探索 DP 累積和二次元累積和尺取法二分探索 Union-Find ソートダイクストラベルマンフォードワーシャルフロイド最小全域木 PQ セグ木最大流スター型グラフ二次元座標を二部グラフにする(ABC 131 F) dpはとりあえず立式したほうがいい Dpは解けなそうで何でも解けるので、亜種dpを徹底的に試すと良いダブリング
2022年08月02日

Monkey saddle

$z=x^3-3xy^2$をMonkey saddleと呼ぶらしい https://en.wikipedia.org/wiki/Monkey_saddle Monkey saddleは退化臨界点である (cf. Morse関数)
2022年08月02日

Morse関数

M を n 次元可微分多様体とする． M 上の $C^∞$ 関数 $f : M → R$の臨界点 $p$が非退化であるとは， $f$ の $p$における Hessian $H_p(f)$ が正則行列となることである．すべての臨界点が非退化であるような関数を Morse 関数とよぶ． https://www.ms.u-tokyo.ac.jp/~kohno/lectures/g1-7.pdf
2022年07月31日

Toronto Paper Matching System
2022年07月30日

RPN

Resion Proposal Network 背景なのか, 物体が写っているのかだけを識別するサブモジュール Faster-RCNNにおいては, ①RPNで領域を絞ってから, ②それぞれ個々の物体についてラベルを絞っていく Faster-RCNNの学習では, 「RPNの重み更新→モデル全体の重み更新」を繰り返して学習 RPNでは, Anchor boxが背景か物体か / 物体ならばGTとの
2022年07月28日

WL test

引用: https://davidbieber.com/post/2019-05-10-weisfeiler-lehman-isomorphism-test/ 正式名称: The Weisfeiler-Lehman Isomorphism Test グラフが同型であるかチェックするアルゴリズム各ノード $i$に適当なラベル $C_i = 1$を割り当てる隣接するノードの多重集合 $L_i$をノードに記録する多重集合 $L_i$をハッシュに通して新たな $C_i$を得る ( $C_i \leftarrow hash(L_i)$) 以上を繰り返して, ノードの分割 ${C_i}$が収束したら停止２つのグラフが[* 同じ $
2022年07月26日

p4m群

任意の並進操作 + 任意の90度回転操作を元とする集合が群であるとき, p4群と呼ぶさらに鏡映操作についても群ならばp4m群と呼ぶ一般にpn群は回転対称数が360°/n 回であり, 鏡映対称性が成り立つならばsuffixにmが付く
2022年07月25日

なぜerrnoが必要か

例えばfopenなど, そもそも構造体やポインタを返すようなものだと, エラーハンドリングがしにくいじゃあ常にタプルっぽく返せばいいんじゃない？エラーハンドリングが必要ない場合, 普通のCだと非常に煩雑になり得るメモリの解放とかめんどいしそこで, グローバルなerrnoが設計された現在の多くの言語ではタプルを返すことができるの
2022年07月25日

ReferItGame

画像-参照表現におけるデータセット割と大きいデータセットみたい the game has produced a dataset containing 130,525 expressions, referring to 96,654 distinct objects, in 19,894 photographs of natural scenes. ゲーム形式でアノテーションされるアノテータは二人二人でアノテーションを行うまずプレイヤーAがキャプションを考える次にもうひとりのプレイヤーBがそのキャプションが正しいかを当てる BはAのキャプションが指している物体をクリ
2022年07月25日

PCA Color Augmentation (PCACA)

AlexNetで使われたらしいData augumentation手法そんなに使われてるイメージはない. 古代の手法？？ Fancy PCA / PCACAとも言うらしい？(要出典) 画像中の色の分布を考慮したデータ拡張ができる例えば, 明るいところは明るく, 暗いところは暗く調節できる流れは簡単 $C\times H\times W$をflattenして, $C\times HW$にする各チャネ
2022年07月23日

Perspective-n-Point問題

世界座標系における3D点群と, それらに対応する2D画像が与えられた場合において, カメラのポーズ推定を行う問題カメラのポーズは平行移動と回転の6DOFで, Perspective-n-Point問題はPnPと略されることが多い P3Pは最低三点あれば解ける一般化されたPnPを解くアルゴリズムは様々ある EPnP SQPnP: A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point
2022年07月23日

SQPnP: A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point Problem

ECCV2020
2022年07月17日

NTK

Neural Tangent Kernel 以下に示すようなカーネル $$k_{\mathrm{NTK}}(x_i, x_j) = E_{\theta \sim \N} \left\langle \frac{\partial f(x_i; \theta)}{\partial \theta}, \frac{\partial f(x_j; \theta)}{\partial \theta} \right\rangle$$ 特に, 入力をhypersphereに限定すると, MLPのNTKは $h_{\mathrm{NTK}}(\mathbf x_i^\top \mathbf x_j)$と内積の形で書ける幅が無限にデカイ全結合層を考えると, 重みはほとんど初期値の近くしか動かず, このモデルはNTKによるカーネル回帰と同じ挙動をする(らしい) なので, NNの解析がかな
2022年07月16日

Canny法

かなり古い(1986年)エッジ検出手法授業で使ってるチームがいたので気になって調べてみた流れノイズをへらすため, ガウシアンフィルタソーベルフィルタを用いて画素値を微分し, 勾配と法線ベクトルを求める →ついでにこれで輪郭を抽出したことになる抽出した輪郭線を細くしていく → ある画素 $x$に注目したとき, 法線方向に隣接する2点を
2022年07月15日

SIGHUP

ターミナルの終了時やハングアップによって送られるシグナル DHCPを作成する演習で, SIGHUPをハンドリングしろと言われてピンと来なかったがどうやらサーバプロセスの多くはSIGHUPを受け取るとプロセスを終了して再起動する https://atmarkit.itmedia.co.jp/ait/articles/1708/04/news015.html らしいので, 合点。 nohupを使えばSIGHUPがプロセスへ送られないようにできるらしい https://qiita.com/f0o0o/items/7f9dfaf3f7392c0ce52f
2022年07月13日

TailwindCSS

最近, Tailwind + Hugoでポートフォリオを作り直した → https://yuiga.dev TailwindCSS めちゃんこ高速に書けるのでとても良い感覚としてはキーバインドとか, スニペットに通じるキーバインドでスニペット貼ってる感覚メンテナンス面はどうなの？ https://tailwindcss.com/docs/reusing-styles#extracting-template-components によると Utility-Firstに則り, 「CSSを定義するのではなく, コンポーネント化しろ」とのことなるほど, ここにV
2022年07月12日

再生核ヒルベルト空間

再生性 $f(x) = <f,\phi(x)>_{\mathcal{H}}$ 「再生核ヒルベルト空間」= 再生性が成り立つヒルベルト空間 todo
2022年07月12日

ヒルベルト空間

ベクトル空間 $\supset$ 内積空間 $\supset$ ヒルベルト空間まず「ベクトル空間」についてベクトル空間の公理 (群論を想起すれば自然と思い出せる) 加法について閉じており, 零元, 逆元が存在 / 結合則・交換則が成立スカラー積について閉じており, 零元, 逆元が存在 / 結合則が成立スカラー積と加法の間で分配法則が成立 $$\lambda (a+b)=\lambda a + \lambda b$$ こいつらが成り立てばまずはベク
2022年07月12日

MPI (Multiplane Image)

画像を複数レイヤーの重なりとして分解する →MPI表現
2022年07月11日

ストレスなくpdbを使う方法

TL;DR pdbを使おうとすると, ブレークポイントが必要かどうかに拘らずcを入力する必要がある →ストレス😠 -m pdbだけでなく-c cをつけると自動でpdbモードに入ってくれる →ストレスフリー✨ 1 python -m pdb -c c main.py なので ~/.zshrcに 1 alias pdb="python -m pdb -c c" とでも書いておけば, デバッグしたいときにpythonをpdbに変えてしまうだけでいいの
2022年07月10日

noteのバックアップを取る

現段階でそういうのはないらしいということで作った → noteバックアップ記事→ noteをバックアップ・エクスポートするWebサービスを作った (画像可・他ブログへの移行可) 「個人ブログ/Qiita/Zenn/Scrapbox/note 使い分け」を書いているときにふと思いついたそのまま勢いで日曜丸一日を潰して作ってしもうた今
2022年07月07日

ar5ivのコードを読む

https://github.com/dginev/ar5iv 前提: arxivは投稿時, texをアップロードしなければならない ar5iv: 裏でクローラを回して, latexmlをキャッシュしてるだけっぽい最終的にHTMLに変換されたものをzipで固めてサーバ上で管理レンダリング時はzipを展開して独自のCSSで書き換えたものを表示 Rust製
2022年07月07日

方策エントロピー

探索空間において探索されたことで更新される情報量情報エントロピー, もしくは方策の対数尤度の期待値と考えればOK $$\displaystyle{H(\pi( \cdot | s_t)) = \sum_{a} {-\pi(a | s)\log\pi(a | s)} = E_{a\sim\pi} \left[ {-\log\pi(a | s)} \right \rbrack}$$ 引用: https://horomary.hatenablog.com/entry/2020/12/20/115439
2022年07月07日

SAC(Soft-Actor-Critic)

Actor-Critic型のSoft-Q学習 Soft-Q学習とは簡単に言うと, 報酬 + 方策エントロピーを目的関数に据える学習手法 SAC(Soft-Actor-Critic)の理論的背景はSoft-Q学習からきており、従来の目的関数に方策エントロピー項を加え、より多様な探索を可能にした手法です。エントロピー項は正則化の役割
2022年07月06日

WikipediaのTexをコピペする

WikipediaはMathJaxを使っているので(ホントか？), 画像を新規タブで開けばタイトルにtex表記が記述されているなので, 画像を新規タブで開く→ソースコードを表示→titleタグの部分をコピペすればOK 例 $${\displaystyle \langle S\rangle ={s_{k_{1}}^{e_{k_{1}}}s_{k_{2}}^{e_{k_{2}}}\cdots s_{k_{m}}^{e_{k_{m}}}\mid \exists m\in \mathbb {N} ,(k_{1},\ldots ,k_{m})\in \mathbb {N} ^{m},e_{k_{j}}\in \mathbb {N} ,s_{k_{j}}\in S}.}$$
2022年07月06日

Impact Factor

学術雑誌の影響力を測る指標らしい (そんなのあるんだ) 今年の被引用数を過去2年分のPublicationで割る $\displaystyle {\text{IF}}_{y}={\frac {{\text{Citations}}_{y}}{{\text{Publications}}_{y-1}+{\text{Publications}}_{y-2}}}.$
2022年07月05日

残差接続

残差の何がうれしいか？そのモジュールが特徴量変換器として必要なければスキップすることができる言い換えれば, 恒等変換が起点となるので, 恒等写像が簡単に実現できる
2022年07月04日

リプシッツ連続

関数 $f(x)$ がリプシッツ連続である $\Leftrightarrow \exist k, \forall x_1, x_2 , |f(x_1)-f(x_2)|\leq k|x_1-x_2|$ 機械学習において, 摂動 $e$を与えた場合の解析に良く用いられるword (ホントか？) すなわち, リプシッツ連続であれば, $|f(x+e)-f(x)|\leq k|e|$ が成り立つので, 摂動に強い分類器であると言える.
2022年07月01日

tex

\setlength{\baselineskip}{10pt} で「行間 + 文字の高さ」が10ptになる
2022年06月30日

Hessianの固有値とフラットさ

Hessianの固有値は等高線の密度を表現するどの方向に勾配が, どの程度早く移動するかなので, 最大固有値が小さいと損失平面はフラットになる (等高線の密度がどの方向にも低い)
2022年06月30日

Sergey Levine

ロボティクス系で結構すごい人らしい
2022年06月29日

CORS

Cross-Origin Resource Sharing オリジンとは, プロトコル + ドメイン + ポートのことつまり, CORSとは同じオリジン間でのリソースの共有のことなので, オリジンが異なるリクエストは基本CORSエラーが起きる
2022年06月29日

美味しい牡蠣フライの食べ方

一度ブログに読書録を書いた牡蠣フライ理論について
2022年06月29日

「村上春樹、河合隼雄に会いにいく」

p132-134 村上: ただ、ぼくが「ねじまき鳥クロニクル」に関して感ずるのは、何がどういう意味を持っているのかということが、自分でもまったくわからないということなのです。これまで書いてきたどの小説にもまして、わからない。たとえば、「世界の終りとハードボイルド・ワンダーランド」は、かなり同じような手法で書いたものではあるのですが、ある
2022年06月28日

Twitter

AboutMeでTweetの有害性について書いたが, とても良く言語化されている以下の記事達を発見した. /shokai/承認欲求の刺激につながる機能を全て排除する /shokai/人間には承認欲求を刺激すると知能が下がるバグがある
2022年06月27日

REINFORCE

単純な方策勾配方法では $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G(\tau) \nabla log \pi_\theta (A_t|S_t) \rbrack$$ が使われていたが, 全ての時刻 $t$において収益 $G(\tau)$が一律に使用されているのが気がかりである重要なのは, 時刻 $t$の行動の後の評価であるから, $\lbrack0,t)$の収益はノイズとなり得るそこで, REINFORCEでは以下のように勾配を変更する $$\nabla J(\theta) = \mathrm{E}_{\tau_\theta} \lbrack \sum_t G_t
2022年06月27日

強化学習

引用: ゼロから作るDeep Learning ❹ ―強化学習編価値を如何に定めるか？状態 $s$と方策 $\pi$で決める→状態価値関数状態 $s$と方策 $\pi$と行動 $a$で決める→行動価値関数 (Q関数) 方策 $\pi$はグラフ遷移そのものと等しい存在例えば, $\pi(a|s)$は状態 $s$から行動 $a$を実行する確率を表す価値ベース手法価値
2022年06月27日

PPO
2022年06月26日

TD法

DP法とMC法の中間 MCの場合, 終端までわかってないと使えなかったなので, 1ステップの状態に対してサンプリングを行い, 評価→行動引用: ゼロから作るDeep Learning ❹ ―強化学習編
2022年06月26日

DQN

Q学習は推定値 $E_t$ を使って推定値 $E_{t+1}$を更新する (これをブートストラップと呼ぶ) ゆえにQ学習は不安定なのだが, NNを加えると更に不安定になりやすい DQNでは, 推定値 $E_t$ と推定値 $E_{t+1}$の相関が強くなりすぎないように「経験再生」と「ターゲットネットワーク」と呼ばれるものを導入する経験再生過去の状態や行動
2022年06月26日

MC法

モンテカルロ法二次グリッド上の経路探索問題なら, 状態 $s$ は $(i,j)$の各マス方策 $\pi$に準じて $N$回行動 $a$をサンプリング移動先の状態 $s_k$と収益 $G_t(s_k)$を記録終端まで収益 $G_t(s_k)$を計算最後に各状態 $s$の収益 $G_t(s_k)$の平均を取る [* 行動 $a$をサンプリングしている点に注
2022年06月26日

AGI

中国語の部屋
2022年06月26日

DAgger algorithm

状態: $s \in S$ 行動: $a \in A$ 方策: $\pi$ $\pi : S \rightarrow A$ と定義累積的にデータセットを増やしながら方策を学習していく感じ誤差が少ないらしい
2022年06月26日

三島由紀夫

「私の鼻は大きくて魅力的でしよ」などと頑張つてゐる女の子より、美の規格を外れた鼻に絶望して、人生を呪つてゐる女の子のはうを愛します。それが「生きてゐる」といふことだからです。
2022年06月26日

マルチモーダル知識グラフ
2022年06月26日

AtCoder Alert

AtCoder Alert (https://yuiga.dev/atcoder-alert ) を久々にメンテした (2022-06-20) 勉強目的で作っただけで, 特に宣伝も何もしていないのに(当の本人すら使っていない), ここまで波及するとはビックリ一つだけ仕込んでおいた"仕掛け"が機能したようだ波及に気づいたときには仕掛け学的カタルシスを感じた素直に言えば, うれしい気持ちでいっぱいである https://twitter.com/search?q=yuiga.dev%2Fatcoder-alert&src=typed_query&f=live 中身は単純 Nuxt + TS +
2022年06月26日

epipolar

「カメラ $O_L$から見て $X_L$に物体が写っている」とき、「カメラ $O_R$ から見てどこに物体が写るか」の候補 https://qiita.com/Thought_Nibbler/items/9cb7c2637000eecc1a30 “平行な目"では, epipolar lineは平行になる https://gyazo.com/0357ac0708ea93a2036c5c88a388a321[https://gyazo.com/73088515f6591c4dc94313d88accc163]
2022年06月25日

AIC (赤池情報量基準)

真の分布 $g$と得られた分布 $f$のKLダイバージェンスを最小化したい → ( $f$と $g$の交差エントロピー) - ( $g$のエントロピー) を最小化したいで, 真の分布 $g$が得られないので, 色々と強い仮定を連ねると, 例のあの式が導出されるみたい割とAICの導出は難しい https://gyazo.com/fdf004f02bebf52589f0be3e740535f7
2022年06月25日

連想と思考

結局重要なのは記憶谷川俊太郎が詩と自己の同一化を説き, 暗唱の重要性を書いていたが (詩の誕生), 思考にも同様のことが言える夏目漱石が寺田寅彦へ「扇のかなめのような集注点を指摘し描写して、それから放散する連想の世界を暗示するものである。」と言ったように, 結局のところ, 連想というのは思考を支える重要な作用である以上, 記憶の重
2022年06月25日

Matterport3DSimulatorをCUDA11.1で動かす

Matterport3DSimulatorをCUDA11.1で動かすDockerfile 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 FROMnvcr.io/nvidia/pytorch:19.05-py3FROMphp:7.1.9-apacheFROMnvidia/cuda:11.1-cudnn8-devel-ubuntu18.04RUN rm /etc/apt/sources.list.d/cuda.listRUN rm /etc/apt/sources.list.d/nvidia-ml.listRUN apt-key del 7fa2af80RUN apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pubRUN apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/7fa2af80.pubRUN apt-get updateRUN apt-get -y upgradeRUN apt-get -y install nano wget curl# ONNX Runtime Training Module for PyTorch# Copyright (c) Microsoft Corporation. All rights reserved.# Licensed under the MIT License.ARG TORCH_CUDA_VERSION=cu111 ARG TORCH_VERSION=1.8.1ARG TORCHVISION_VERSION=0.9.1# Install and update tools to minimize security vulnerabilitiesRUN apt-get updateRUN apt-get install -y software-properties-common wget apt-utils patchelf git libprotobuf-dev protobuf-compiler cmake RUN unattended-upgradeRUN
2022年06月23日

fork vs spawn

Fork 親プロセスをそのままコピーするので, メモリを圧迫する Spawn 親プロセスから必要なメモリだけコピーして, 立ち上げるので省メモリ新たにインタプリタを起動するので遅い link1: https://britishgeologicalsurvey.github.io/science/python-forking-vs-spawn/ link2: https://itsuka-naritai.com/2021/04/18/multiprocessing-forkとspawnの違いを理解する/ CUDAはs
2022年06月20日

ランバート反射

引用: https://t.ly/4XHt 法線ベクトルがあれば, 表面が再構成可能一つの平面に対して, 法線ベクトルをつなげていけば良い
2022年06月19日

Sinkhorn-Knoppアルゴリズム

Sinkhorn-Knoppの定理台をもつ非負行列は, 適切な対角行列の前方および後方からの乗算によって二重確率行列へ変換できる任意の正方行列 $A$は $D_{1}AD_{2}$が二重確率行列であるような、真に正の成分からなる対角行列 $D_{1}, D_{2}$が存在する Sinkhorn-Knoppアルゴリズムすべての行とすべての列を交
2022年06月19日

goroutineはなぜ軽量？

スケジューラがクソ優秀なだけシステムコールではなく, 独自にスイッチング #* メモリについて基本的にGolangのgoroutineはスレッドよりもメモリ軽量普通スレッドを作ると, ヒープとスタックが被らないようにGuard pageを作る goroutineの場合, guard pageを作らず, まずは小さいスタックを作る途中でスタック領域
2022年06月19日

Goと例外処理

Goにはtry-catchがないなぜか？ First, there is nothing truly exceptional about errors in computer programs. For instance, the inability to open a file is a common issue that does not deserve special linguistic constructs; if and return are fine. 1 2 3 4 f, err := os.Open(fileName) if err != nil { return err } Also, if errors use special control structures, error handling distorts the control flow for a program that handles errors. The Java-like style of try-catch-finally blocks interlaces multiple overlapping flows of control that interact in complex ways. Although in contrast Go makes it more verbose to check errors, the explicit design keeps the flow of control straightforward—literally. There is no question the resulting code can
2022年06月18日

Data-centric AI

モデルやアルゴリズムではなく, データセットそのものをどうにかしましょう的なやつモデル・アルゴリズムを固定し, データセット自体を改良していくことで, 目標値を達成する例えば, ラベルの一貫性を目指したり, アノテータ間の差異をへらす方向に努めるイメージノイズの削減ラベルミスの修正サブクラスのクラスタリング問題は, systema
2022年06月18日

dependabot

dependabotはいつのまにかGitHubに買収されていたらしい https://github.blog/jp/2019-05-24-building-an-interconnected-community-together/
2022年06月17日

”ALLES IST ARCHITEKTUR”

1967年、ハンス・ホラインの論文主体を取り囲む環境は、全て建築と呼びうる。すなわち、フィジカルな環境もフィジカルでない環境も主体にとっては等価であり、それらの間に根本的な差異は存在しない。環境とは主体の外部に客観的な実体として存在するわけではない。環境とは、主体の感覚により生成される主観的な存在である。現象学と同じこ
2022年06月16日

Lyx

ライクスと読む Lyxで表を書いて, texをコピペするのがおすすめ(らしい)
2022年06月16日

Tailscale
2022年06月16日

VPN

ネットワーク同士をつなげるイメージ例1. 自宅Aと別荘BのLANをつなげることができる例2. 自宅AのLANにカフェから入ることができる VPNサーバってどういう仕組なんだろ単純にトンネル作って暗号化&つなげるだけ https://www.sbbit.jp/article/cont1/15715 概要図 https://qiita.com/dem_kk/items/76000a954a8d98dd318c IP-VPNはこういうイメージ外部から完全に隔離されているのでチョー安全
2022年06月15日

NAT超え

PC→サーバはNATによって, グローバルIPに変換されるから良いけど一度も送信したことがないPCでは, サーバ→PCができない ⇒ それを解決するのがNAT超えという技術 ⇒オンラインゲーム・ビデオ会議アプリケーションなどでは必須の技術代表的な手法は2つ STUN 別のサーバを挟んで, プライベートIP・ポート番号とグローバルIPの問い合
2022年06月15日

NAT

前提: 同じルーターに接続されている端末は, すべて同じグローバルIPとなる大体NATというとNAPTのことプライベートIPとグローバルIPを変換 (ポート番号で端末を識別) ポート番号の対応を覚えているので, レスポンスも適切な端末に届けることができる NAPT 同じポートに複数の端末が同時に通信した場合, 受信ポート番号を切り替えること
2022年06月15日

FLANN

高速に最近傍探索できるらしい OpenCVにも組み込まれてるっぽい SIFT + FLANN → https://docs.opencv.org/4.x/da/de9/tutorial_py_epipolar_geometry.html
2022年06月15日

faiss

k近傍法とか最近傍探索とかクラスタリングとかできるらしい CPU / GPU 両方とも用意してあるが, err == CUBLAS_STATUS_SUCCESS faiss という謎エラーのためプロジェクトではCPU版を使うことに https://github.com/facebookresearch/faiss
2022年06月14日

Mixup

クラス間の決定境界付近で, 各クラスの尤度の変化を滑らかにすると言われている In Manifold Mixup: Better Representations by Interpolating Hidden States
2022年06月14日

Woodburyの公式

$(\mathbf{A}+\mathbf{B}\mathbf{C}\mathbf{D})^{-1} = \mathbf{A}^{-1} - \mathbf{A}^{-1}\mathbf{B}(\mathbf{C}^{-1}+\mathbf{D}\mathbf{A}^{-1}\mathbf{B})^{-1}\mathbf{D}\mathbf{A}^{-1}$ が成り立つ. 左辺を計算するより右辺を計算したほうが効率的なことがあるので便利
2022年06月14日

Efficient Transformer

サーベイ→ https://arxiv.org/abs/2009.06732 Fixed Patterns Blockwise Patterns シーケンスを局所的なサイズにクロップ Strided Patterns ストライドで計算 Compressed Patterns poolingなどでダウンサンプリング Combination of Patterns Learnable Patterns ReformerやRouting Transformer など重要度が高いもののみ使用 Memory Set Transformerなど Low-Rank Methods Kernels Recurrence
2022年06月14日

GeLU

シグモイド関数よりも，高速で収束性能の良い，ReLU型関数による活性化． Dropout（活性値のランダムな0化）による，モデルの正則化効果． RNN向け正則化手法の Zoneout のような「入力へランダムに1を掛けることによる正則化」の効果．アイデア [* 決定論的なReLUを確率論的な「0 or x 選択」に差し替える] ⇒ ランダム正則化入力 $x$
2022年06月14日

RANSAC

RANSAC(RANdom SAmple Consensus) → 外れ値を含むデータから、外れ値の影響を除外して数学モデルのパラメータを学習する手法。 Method 適当にサンプリングしてきたサンプル点だけで回帰を行う回帰された関数 $f$ を全サンプル点で評価する (SVM のマージンみたいに) 一番評価の高い関数 $f$ を最終的に採用する https://gyazo.com/d6d40b0d117f16724f69dcc04da868a8 https://en.wikipedia.org/wiki/Random_sample_consensus
2022年06月14日

Feature Pyramid Networks

Feature Pyramid Networks とは Feature Pyramid Networks (FPN) は，前段のボトムアップなCNNの後段に，deepな層とshallowな層をトップダウンに接続した上で，更に各スケール階層同士をスキップ接続でつないで，砂時計型Encoder-Decoderを構成するの特徴集約のCNNバックボーンを拡張する構造である．FAIRの物体検出が得意な有名チームから提案されたこ
2022年06月13日

確率推移行列

各要素 $s_{i,j}$ について, 状態 $(i,j)$ = ノード $(i,j)$ と思えばOK
2022年06月13日

二重確率行列

正方行列すべての行和とすべての列和が1 行列の全成分が0以上こいつを確率推移行列とするような確率推移は全要素が均一な状態に収束
2022年06月13日

N-Shot Learning

https://ananas1845.hatenablog.com/entry/2019/12/22/022405
2022年06月12日

問題を如何に見つけるか

はじめにモデルを取っ替えるだけが"“研究"“なら, 研究はただの博打に過ぎない重要なのは分析と評価であるしかし, わかりやすい分析だけでは研究にならない(気がする) したがって, まずは分析手法を徹底的にカテゴライズする必要があるできればこれらのメトリクスを常に表示できるようにしたい
2022年06月09日

ウェーブレット変換

フーリエの場合は無限に続く正弦波を元に波形を復元する一方, ウェーブレットの場合は, ウェーブレットと呼ばれる波の断片を寄せ集めて波形を復元するしたがって, ウェーブレットの場合は当該箇所を探しに行かなくてはならないだが, これが逆にメリットであり, 時系列情報を保持したまま周波数領域に持っていくようなことができる例えば下のよう
2022年06月08日

ランク学習

Learning to Rank 写真群から動画を復元するイメージかな？
2022年06月08日

多様体

地球と地図の関係に近い地球は多数の地図によって分割できるが, 重なりが生じたり, 膨らみが生じたりする同様に, 局所的なユークリッド空間を至るところから抽出できるものが多様体
2022年06月08日

リーマン多様体
2022年06月08日

Poincaré Embeddings

そのなかでも, Poincare Ballという双曲空間に埋め込めば階層構造等も表現できるから最高！というお話双曲空間は木の連続値versionであり, 木は双曲空間の離散versionらしいもちろん, 木を埋め込むことができる最適化がやや特殊結局リーマン多様体の話なので, 普通のSGDではなく, RSGD (Riemann SGD)を用いる必要があるそのため, おそら
2022年06月08日

t-SNE

SNEにスチューデントのt分布を用いたまず, 元の次元で $x_i$と $x_j$ の距離を確率分布に落とし込む → $p_{j|i}$ すなわち, $x_j$が $x_i$を中心に選ばれるというイメージどこが距離として強く反応するの？みたいな感じ (図逆やな…) 同様に, 削減後の次元でも $x_i$と $x_j$ の距離を確率分布に落とし込む → $q_{j|i}$ 最後に $p_{j
2022年06月08日

スチューデントのt分布

正規分布よりも裾野が高いのが特徴 SNEでは正規分布が用いられたが, t-SNEでは自由度1のスチューデントのtが使われたこれにより, 中距離のデータも適切な構造を保ちつつ次元を削減することができる https://gyazo.com/89e1d123199b670bcb3d66bfe62e76d7
2022年06月07日

凡人理系学部生の我々は何をすべきなのか

はじめにプログラムを書くことと小説を執筆することは似ている. けれども, 滔々と流れゆく記号列を操作するという相似形の作用線において, 両者には決定的に異なる特性が一つある ─ それは, プログラムにおいては疎結合が好まれ, 小説においては密結合が好まれるという点である. すなわち, 小説において肝要なのは「誤配」や意図せぬ「混線」であ
2022年05月31日

OOD

Out of Distribution todo そもそもOODって何よどう定義すれば良い？例えば, 平行移動はOOD?
2022年05月28日

Stochastic Depth

SwinTransformerでは有効活用されてるらしい DeiTなどにも Dropoutがネットワークの幅を調整するのに対して, Stochastic Depth ではネットワークの深さを調節する層のとても深いResNetといったモデルはBackpropagation時の勾配消失や，各パラメータが有効に学習しない，学習時間の増大などが問題点として上げら
2022年05月28日

MobileFormer

TransformerとMobileNetを並列に接続これって, MixFormer と同じ理由でうまく行ってる？ → MixFormer参照
2022年05月23日

HandEye Calibration

カメラ座標系とロボット座標系の変換
2022年05月20日

SG-SQ

SmoothGrad の $\sum$ の中を二乗したもの
2022年05月19日

Mask RCNN

roi をencodeしたものをfeature map に投影する際, shapeが合わないので工夫する必要がある → ROI pooling と ROI Align (Mask RCNNはコッチ) mask-branchでmaskを生成各画素ごとにクラス確率を計算 ROI pooling ROI Align bilinear補完を行う
2022年05月17日

Equalization Loss

headはlossを小さく, tailはlossを大きくしたい重み $w_i $を使ってlossを設計する (二値の場合) $L_{EQL}=-\sum_{j=1}^{C}w_{j}log(\hat{p_{j}}),$ $w_{j}=1-E(r)T_{\lambda}(f_{j})(1-y_{j})$ In this equation, E(r) outputs 1 when r is a foreground region proposal and 0 when it belongs to background. And fj is the frequency of category j in the dataset, which is computed by the image number of the class j over the image number of the entire dataset. And Tλ(x) is a threshold function which outputs 1 when x < λ and 0 otherwise. λ is utilized to distinguish tail categories from all other categories and Tail Ratio (T R) is used as the criterion to set the value of it TRを元に $\lambda$ を
2022年05月17日

SIFT

輝度勾配を計算(矢印) ノイズを軽減するために中心に対してガウス分布かける勾配の方向を8方向に量子化 → 8ベクトル B個のブロックがあれば, 全ブロック分concatして, 8Bベクトルが得られる位置合わせなどに用いる / Panograpy
2022年05月17日

VRR
2022年05月16日

Homography

ホモグラフィ行列の推定これで少なくとも必要条件は求まる $s \begin{bmatrix} x^{’} \ y^{’} \ 1 \end{bmatrix} = H \begin{bmatrix} x \ y \ 1 \end{bmatrix} = \begin{bmatrix} h_{11} & h_{12} & h_{13} \ h_{21} & h_{22} & h_{23} \ h_{31} & h_{32} & h_{33} \end{bmatrix} \begin{bmatrix} x \ y \ 1 \end{bmatrix}$
2022年05月10日

活性拡散

知識グラフ / GNN https://www.sciencedirect.com/topics/computer-science/spreading-activation#:~:text=Spreading%20activation%20is%20the%20name,on%20the%20associations%20among%20chunks.
2022年05月10日

Mercer's theorem

積分作用素を定義 https://en.wikipedia.org/wiki/Mercer's_theorem https://yagami12.hatenablog.com/entry/2018/12/02/192137#Mercerの定理
2022年05月06日

Better plain ViT baselines for ImageNet-1k

The main differences from [4, 12 are a batch-size of 1024 instead of 4096, the use of global average-pooling (GAP) instead of a class token [2, 11 , fixed 2D sin-cos position embeddings [2, and the introduction of a small amount of RandAugment [3 and Mixup [21 (level 10 and probability 0.2 respectively, which is less than [12). These small changes lead to significantly better performance than that originally reported in [4. https://arxiv.org/pdf/2205.01580.pdf
2022年05月06日

スピアマン相関係数　

todo https://webbeginner.hatenablog.com/entry/2020/06/26/120000#:~:text=2つの相関係数の違い&text=ピアソンの相関係数では%E3%80%81変数の値そのもの,順位を利用します%E3%80%82&text=正規分布に従うことを,を作ってい
2022年05月01日

不均衡データ

reweightingはただのsoft-margin SVMと同等になるらしい
2022年04月30日

Attention

Attentionは２つに大別される Self-Attention SourceTarget-Attention ↓ 引用 : https://www.arithmer.co.jp/post/20210413
2022年04月22日

PyTorch 高速化

https://qiita.com/sugulu_Ogawa_ISID/items/62f5f7adee083d96a587#31-ampautomatic-mixed-precision機能について
2022年04月22日

Automatic Mixed Precision

float16とfloat32を混ぜて(Mixed)計算することで, GPUのMEM使用率を抑えることができる計算スピードも幾分速くなるらしい略してamp https://qiita.com/Sosuke115/items/40265e6aaf2e414e2fea https://tawara.hatenablog.com/entry/2021/05/31/220936
2022年04月21日

Huber loss

外れ値に強く, MSEよりもロバスト性が高い
2022年04月21日

torch.flattenの方向

#PyTorch
2022年04月18日

Distribution Alignment: A Unified Framework for Long-tail Visual Recognition

Decoupling Representation and Classifier for Long-Tailed Recognition を引用新規性は以下の２つ Adaptive Calibration Function Alignment with Generalized Re-weighting Adaptive Calibration Function 分類器の出力 $\boldsymbol{z}$を線形変換して重み付け + marginを加える Alignment with Generalized Re-weighting targetの確率に重み付け https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Distribution_Alignment_A_Unified_Framework_for_Long-Tail_Visual_Recognition_CVPR_2021_paper.pdf
2022年04月18日

iBOT

BeiTと同様にトークンベース
2022年04月17日

SimSiam

EMアルゴリズムとの関連 ↓ どうやらEMアルゴリズムと深い関係があるらしいことが論文中にも書いてある https://speakerdeck.com/sansandsoc/simsiam-exploring-simple-siamese-representation-learning?slide=17
2022年04月14日

warmup

MomentumやAdamといった移動平均を使うオプティマイザーなら、移動平均を取るための勾配の蓄積が足りないと, 学習の初期段階において値の信頼度が低い（よって変な値が出て精度を損ねる）ということも考えられます。 https://qiita.com/omiita/items/d24568a835da6911b01e
2022年04月14日

学習率

cosアニーリング warm-restart cyclical-learning rate バッチサイズと深い関係がある学習率の決め方 https://www.slideshare.net/TakujiTahara/20190713-kaggle-tokyo-meetup-lt-nn-no-gokigentori-tawara-155334755
2022年04月12日

重み共有

基本的にはsumを取れば良いらしい PyTorchだと普通に呼び出せばそのまま重みの共有になるらしい https://vasteelab.com/2022/01/31/post-1951/ http://neural.vision/blog/deep-learning/backpropagation-with-shared-weights/
2022年04月11日

GemPooling

初出 Fine-tuning CNN Image Retrieval with No Human Annotation そもそも, チャネルごとのPoolingがなぜうまく行くのか
2022年04月11日

Global Average Pooling

例えばVGG-16を考えてみると, 最後の全結合って計算量やばいよね VGG-16だと, $7 \times 7 \times 512 → 1 \times 1 \times 4096 $ で全結合パラメタ数は $(7 \times 7 \times 512) \times (1 \times 1 \times 4096) $ → エグいチャネル方向に平均をとって, そいつらをconcatしてあげればOKじゃない？ → Global Average Pooling 性能は普通にflattenした場合とさほど変わらないらしい https://qiita.com/mine820/items/1e49bca6d215ce88594a
2022年04月09日

intermediate fine-tuning

普通にpre-train data-richなデータセットで学習 fine-tuning NLPにおいては, 結構よく使われる手法らしい by BeiT
2022年04月09日

linear probe

linear probingだけでは, 有用だが非線形な特徴量は扱えないそこで, partial fine-tuningと呼ばれるものがある最後の何層かだけを再び学習対象として, それら以外はfreezeさせる intermediate fine-tuning というものもある結構よく使われる手法らしい
2022年04月09日

CLS

普通のtransformerモデルだとCLSをそのままMLPに通して分類器を構築する本当にそれで良いの？？ BERT系だと CLSを使うパターン BERT / ViT の画像分類タスク後続のトークンの先頭と最後だけ使うパターン BERTのQAタスク Global Average Poolingで全トークンを圧縮するパターン BeiT の画像分類がある https://www.ai-shift.co.jp/techblog/2145 todo
2022年04月09日

alienware

ls -l /sys/class/leds alienware::global_brightness /sys/class/leds/alienware::global_brightness/brightness https://forum.manjaro.org/t/keyboard-rgb-light-on-off/45028/25
2022年04月08日

torch.view

同じ順序でメモリ上に展開されてないとダメだから注意 1 2 3 4 >>> torch.t(x).view(-1, 2) Traceback (most recent call last): File "<stdin>", line 1, in <module> RuntimeError: invalid argument 2: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Call .contiguous() before .view(). at /Users/soumith/code/builder/wheel/pytorch-src/aten/src/TH/generic/THTensor.cpp:237 1 2 3 4 5 6 x = torch.Tensor([[[ 1., 5., 9.], [ 2., 6., 10.], [ 3., 7., 11.], [ 4., 8., 12.]]]) x = x.unsqueeze(0) print(x.transpose(-1,-2).view(1,-1,2)) ↑ これだとメモリ上に展開されてないからダメ 1 2 3 x = torch.Tensor([[1,2,3,4],[5,6,7,8],[9,10,11,12]]) x = x.unsqueeze(0).transpose(-1,-2) print(x.transpose(-1,-2).view(1,-1,2)) ↑こっちだとOK
2022年04月08日

Influenced-Balanced Loss
2022年04月07日

Sparse Attention

https://data-analytics.fun/2021/02/01/understanding-sparse-transformer/ todo
2022年04月07日

DALL-E

https://data-analytics.fun/2021/05/31/understanding-openai-dalle/ todo
2022年04月07日

Swish

Swishを提案
2022年04月07日

ReLU

派生 GeLU Swish Mish
2022年04月05日

Capsule Neural Network

背景: pooling処理によって, 特徴間の相対的な関係性が学習しににくなっているスカラではなくベクトルですべて処理する https://qiita.com/motokimura/items/cae9defed10cb5efeb62
2022年04月04日

NN
2022年04月04日

ReLUは如何に関数を近似するか？

#* 関数近似 NNは基本的に関数近似器活性化関数があることで非線形なものも近似することができる活性化関数がなければ, ただの線形変換にしかならない＋層を重ねる意味がない ReLUはほとんど線形関数と変わらないけど, どのように関数を近似するのか？大前提 : ReLUは折りたたみを表現できるなので, カクカクで任意の関数を近似できる $$f(x) =
2022年04月03日

ELU

お気持ちとしてはReLUと同じ感じ
2022年04月03日

tqdm

tqdmのプログレスバーはstderr出力 teeで出力したいなら, 出力先を変える
2022年04月03日

LambdaNetwork

MSAと同様, d方向に分割して, 並列処理行列計算に関しては torchのテンソル積を参照 Linear Attention LambdaNetsはContentとPositionの２つを計算する Contentのみを出力とすれば, Linear Attentionと同等になる → Efficient Transformer
2022年04月01日

torchのテンソル積

三次元 $\times $三次元の行列１つ目をバッチサイズとして, バッチ単位で行列積 torch.bmm 4次元 $\times $3次元の行列 (j×1×n×m) と (kxm×p)の積は(j,k,n,p)となるバッチなど、行列以外の次元は、ブロードキャストされる。そのため、行列以外の次元はブロードキャストできるものでなければならない。例えば、tensor1が(j×1×n×
2022年04月01日

torch.bmm

バッチサイズ単位で行列積 @も同様 https://pytorch.org/docs/stable/generated/torch.bmm.html#torch.bmm
2022年03月30日

PointWise・Depthwise

https://agirobots.com/depthwise-pointwise-convolution/
2022年03月30日

Resnet

bottleneck 1x1の畳み込みでチャネル数を減らす https://cvml-expertguide.net/terms/dl/cnn-backbone/resnet/
2022年03月30日

バッチサイズ

バッチサイズが大きいと, 入力パラメタが平均化されるので, 個々のデータの特徴が失われる可能性があるかといって, バッチサイズが小さい方が良いというわけでもなく, 学習率とバッチサイズをうまく調整する必要がある Don’t Decay the Learning Rate, Increase the Batch Size https://arxiv.org/abs/1711.00489 This procedure is successful for stochastic gradient descent (SGD), SGD with momentum, Nesterov momentum, and Adam ノイズスケール $g$には $g = \epsilon(\frac{N}{B}-1)$ という関係がある Nはサンプル数, Bは
2022年03月30日

Focal Loss

局在損失うまく識別できているクラスは軽視現時点で識別に苦労しているクラスを重視
2022年03月29日

シード42

なぜシードは42が使われるのか？ダグラス・アダムスのSF小説「銀河ヒッチハイク・ガイド」に由来 Seven and a half million years later…. Fook and Lunkwill are long gone, but their descendants continue what they started “All right,” said Deep Thought. “The Answer to the Great Question…” “Yes..!” “Of Life, the Universe and Everything…” said Deep Thought. “Yes…!” “Is…” said Deep Thought, and paused. “Yes…!” “
2022年03月29日

Transformer

encoder: self-attention → feed-forward NN decoder: self-atteiont → multi-head attention → feed-forward NN self-attention K,V,Qをsource内部で学習 attention K,V,Qをsource-target間で学習 multi-head 各単語ごとにK,V,Qを計算するのではなく, ヘッドの数だけ小さいK,V,Qを計算してconcat. 出力時に重みWをかけて次元を調整学習対象は各ヘッドの重みW_Q, W_K, W_V と出力W_O attention機構自体には
2022年03月29日

BERT

BERTの新規性はMasked LM(事前学習タスク) 事前に行うタスク=「事前学習タスク(pre-training task)」解きたかったタスク=「下流タスク(downstream task)」渡されたパラメータを下流タスクの学習の際に固定するかしないか固定するなら「特徴量ベースのアプローチ」固定されたパラメータを持つモデ
2022年03月29日

PyTorchとメモリ

必要なメモリ量必要メモリ量(byte) = (ニューロンの数 × Batch Size ＋パラメータ数) × 2 (data & grad) × 4(byte) https://nori-life-log.com/nnの学習で必要なgpuメモリを算出する重みを固定(freeze) 1 2 3 # freeze all layers for param in model.parameters(): param.requires_grad = False
2022年03月29日

Over-smoothing

#GNN
2022年03月28日

百兆の詩篇

レーモン・クノー
2022年03月25日

Faster-RCNN

ROI pooling
2022年03月24日

np.float32

pythonのfloatはCでいうdouble np.float32はCのfloatと同じ一方, np.float64はpythonのfloat float in Py == double in C == np.float64 == 8バイト np.float32 === float in C == 4バイト
2022年03月22日

標準化

訓練セットの分散、平均、最大値、最小値などの情報を使ってテストセットを変換する
2022年03月19日

DatasetGAN

GANによって生成した画像に対して、自動的にアノテーションを付与するネットワークを学習する点が新しい。StyleGANの特徴量は、アノテーションを生成するために十分な情報を持っているという仮説に基づき、シンプルなネットワークでそれを実現できることを示している。
2022年03月19日

後で読む

todo
2022年03月19日

SBERT-WK

BERT, Sentence BERT は各層における単語の分散に着目していない「各単語の各層での埋め込み表現がどの程度の分散を持つか」を調べる以後, 分散＝**各層でのばらつき **なので注意 ↓ can, wouldのような意味の少ない単語だと分散が小さいが, 意味が多い単語だと分散が大きいこの問題に対応するために, 各層に対して重み付け和を取ったものを新たな埋め込み
2022年03月19日

lvalue・rvalue
2022年03月18日

einsum

アインシュタインの縮約記法テンソル積を書くと大量の $\Sigma$が出てきてうざいなので, $\Sigma$を省略しよう, というのが事の始まり $\sum_{j} a_{i,j}b_{j,k}$ なら ij,jk → ik プログラム的に考えれば, 単純にfor を外しただけ例えばドット積 z[i,j](https://scrapbox.io/yuwd/i%2Cj) += x[i,j](https://scrapbox.io/yuwd/i%2Cj) * y[i,j](https://scrapbox.io/yuwd/i%2Cj) np.einsum("ij,ij->ij", x, y) 内積 z[j,k](https://scrapbox.io/yuwd/j%2Ck) += x[j,i](https://scrapbox.io/yuwd/j%2Ci) * y[i,k](https://scrapbox.io/yuwd/i%2Ck) np.einsum("ji,ik->jk", x, y) 軸の入れ替えなどでも使える y = torch.einsum('nchw->nhwc', y).detach().cpu() 実際は遅いからやめたほうが良さそう
2022年03月18日

world_size

world_size プロセス数 rank どのプロセスなのかを指定
2022年03月17日

権威DNSサーバ

自分の担当するドメインについて名前解決してくれるDNSサーバ一方で, 他のDNSサーバなどを辿って名前解決してくれるやつはキャッシュDNSサーバとも呼ばれる herokuとかでサブドメインのURL持てたりするけど, 自前でDNSサーバを設定してるって感じなのかな？
2022年03月16日

多次元正規分布でGibbs Sampling

はじめに先日, 研究室の勉強会でこの本のGibbs Samplingの章(9.3.4)を担当しました. 実際にpythonで実装してみたりしたので, せっかくですから備忘録程度にまとめてみました. なお, 数弱によるガバガバ数学が展開されておりますのでご了承ください. Markov連鎖 Monte Carlo法ベクトル $\boldsymbol{x}$ が分布 $p(\boldsymbol{x})$ に従う際, 期待値
2022年03月15日

共変量シフト

BatchNormによって減らすことができる BNは学習対象のパラメタを持つので注意共変量シフトを抑えながら, レイヤの表現量を維持するためにパラメタ $\gamma, \beta$ が使われる https://gyazo.com/b54205f667854ac7219c5f7eb002c761 後で読む https://zenn.dev/takoroy/scraps/b26c76a9f94069
2022年03月13日

Layer normalization

Post-LN 通常のTransformerだとこっち性能が高い不安定 Pre-LN (相対的に)性能は低い安定 DeepNet DeepNetでは, DeepNormという手法を用いることで性能・安定性ともに向上させるこれによって, 層数をバカでか数にしても, 安定して学習させることができる
2022年03月12日

重みの初期化

nn.init.hogehoge() で初期化できる例 nn.init.xavier_uniform_(ln.weight) # Xavierの初期値 PyTorchの場合, デフォルトはHe
2022年03月10日

DTW距離

２つの時系列データ $\boldsymbol{s}, \boldsymbol{t}$の類似度を計算 $\boldsymbol{s}, \boldsymbol{t}$をそれぞれ軸としたグリッドに対して, 最小のパスをDTWとする
2022年03月10日

Parallel WaveGAN

Wave Net STFT
2022年03月07日

機械学習の解釈性

特徴量の重要度重要度を測るには, その特徴量を使えない状態を近似的に作り出せば良い PFI Permutation Feature Importance 特徴量 $X_i$ だけをシャッフルして, シャッフル前と後とで予測結果を比較 ( $X_j (j \neq i)$は固定) 本当に特徴量 $X_i$ が重要なら, シャッフルによって予測結果がブレるはず SHAP SHapley Additive exPlanations 特徴量 $X_i$があるときと無いときとで予測結果を比較
2022年03月06日

操作変数法
2022年03月06日

Neural architecture search

Auto ML
2022年03月06日

時系列予測

Statistical and Machine Learning forecasting methods: Concerns and ways forward https://journals.plos.org/plosone/article/file?id=10.1371%2Fjournal.pone.0194889&type=printable
2022年03月06日

AR・MA・ARMA・ARIMA・SARIMA

AR Autoregressive Model 自己回帰モデル t-1の観測値と誤差項epsで回帰 AR(1) $$y_t = \phi y_{t-1} + \epsilon_t + \mu$$ MA Moving Average 移動平均モデル ARのように観測値メインではなく, 誤差項＝差分をメインに計算する MA(1) $$y_t = \phi \epsilon_{t-1} + \epsilon_t + \mu$$ ARMA ARとMAを加算しただけ ARIMA d階差分系列 $y_t - y_{t-d}$をARMAで記述する ARIMA単体でAR・MA・ARMAを表現できる SARIMA ARIMAに加え
2022年03月06日

ARIMA

ARIMA: auto regressive integrated moving average 自己回帰移動平均モデル
2022年03月06日

Informer

$P(key|query)$が高いqueryを上位X分だけ取り出してself-attentionを計算 - LogSparse Transformerのようなヒューリスティックな手法から脱却 Self-attention Distilling self-attentionの各層をpoolingでダウンサンプリングして蒸留
2022年03月03日

NestJS → Query String(GET)にarray

https://github.com/nestjs/swagger/pull/67 array[]=abc&array[]=1234 で {abc,1234}が表現できるらしいこれってどこまで標準的なの…? https://stackoverflow.com/questions/6243051/how-to-pass-an-array-within-a-query-string
2022年03月01日

内挿・外挿

https://atmarkit.itmedia.co.jp/ait/articles/2008/26/news017.html https://science-log.com/雑記topページ/「外挿」と「内挿」の違い/ https://ja.wikipedia.org/wiki/内挿
2022年02月28日

詳細釣り合い条件
2022年02月28日

エルゴード性
2022年02月26日

Linear Attention: Transformers are RNNs

RNNの計算量はO(nd^2) / Transformerの計算量はO(n^2d) $$Attention(Q, K, V) = sortmax(\frac{QK^T}{\sqrt{d_{key}}})V$$ $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$ O(n^2)の部分をどうにかしたい O(n)に落としたい → Linear Attention とにかく類似度の計算ができれば良いので, 別の類似度計算に置き換えたい simでまとめると $$sim(q, k)=exp(\frac{q^Tk}{\sqrt{d_{key}}})$$ $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^nsim(q_i, k_j)\cdot v_j}{\sum_{j=1}^nsim(q_i, k_j)}$$ q_iとk_jに依存しているので, 乗法に分離できると嬉
2022年02月26日

研究

発見遠藤さんが「発見」という表現を使っていた機械学習の研究 → 実験屋に近い側面にもっと注目した方が良い気がする対象の問題原因と結果の問題仮説生成型と仮説検証型 https://xn--w8yz0bc56a.com/hypothesis-making-proving/ 解体と演算子自然言語処理の研究では、(1)新しいアーキテクチャやモデルを導入する、(2)アーキテクチャやモデルを改良したり、様々なタスクに適用したりして得られた小
2022年02月26日

モード崩壊

generatorの学習に失敗して、訓練データの（しばしば多峰性の）分布全体を表現できずに訓練データの最頻値（mode）のみを学習してしまいます。全国民の期待に応える能力がなく、とりあえず多数派のための政策をつくる、みたいなイメージですかね。引用: https://qiita.com/triwave33/items/a5b3007d31d28bc445c2 GAN Wasserstein GAN
2022年02月26日

GAN

CNNを使えば良い → DCGAN GANの問題点学習が安定しない勾配消失問題が発生するモード崩壊が起きる Wasserstein GANの導入によって改善することができる損失関数でJSダイバージェンス KLダイバージェンスじゃなくてJSのほうが精度が出るらしいただ, JSダイバージェンスのせいで勾配消失・モード崩壊が起きているとも言えるみたいなので, 損失関数
2022年02月26日

Wasserstein GAN

Wasserstein距離を用いるGAN Wasserstein距離は閉じた形で解が得られないなので, **iterativeに解を求める必要がある ** 普通のGANはDiscriminatorが偽物を見破れるように学習する一方でWGANでは… DiscrimianatorはひたすらWasserstein距離を正確
2022年02月26日

Wasserstein距離

https://dreamer-uma.com/wassersteingan-theory/
2022年02月26日

cellular automaton

セル・オートマトンセルオートマトン（Cellular Automaton, CA）とは、空間に格子状に敷き詰められた多数のセルが、近隣のセルと相互作用をする中で自らの状態を時間的に変化させていく「自動機械（オートマトン）」です。このようにCAは抽象的なモデルですが、様々な物理現象や生命現象のエッセンスを捉えたモデルとして古くから研究されてき
2022年02月26日

Neural Turing Machines

https://arxiv.org/pdf/1410.5401.pdf チューリングマシンを機械学習で学習するイメージなのでパターンを学習するのではなく, アルゴリズムを学習する感じ cellular automaton × 機械学習というのもアリ Neural Cellular Maze Solver https://umu1729.github.io/pages-neural-cellular-maze-solver/
2022年02月26日

Neural Routing by Memory

どのようにルーティング？特徴量 $f$ をGlobal Average Poolingに通したものとメモリ ${\boldsymbol{m}}$とで近傍探索 (論文中ではユークリッド距離) メモリは各ブロックの先頭に配置メモリはどう初期化するの？クラスタ分析で表現学習 (表現特徴を抽出) 今回はK平均法でクラスタの中心をメモリに採用パラメタ数が爆増して
2022年02月26日

連合学習

Federated Learning 学習済みモデルをデバイスに送信モデルを運用適宜, デバイス内部で学習学習差分をサーバに送信サーバでデバイスから送信されたモデルをマージ
2022年02月26日

RNNとチューリング完全性

RNNはチューリング完全らしい関連で Neural Turing Machinesというものもある BPは使えないけど, ノードを動的に増減させるタイプのRNNでもチューリング完全なものが構成できるらしい Turing Completeness of Bounded-Precision Recurrent Neural Networks https://openreview.net/forum?id=IWJ9jvXAoVQ
2022年02月25日

コルモゴロフ複雑性

文字列の複雑性を記述することができる例えば A: 010101010101010101010101010101010101010101010101010101010101 B: 110010000110000111011110111011001111101001000010010101111001 ↑ どっちが複雑と言えるか？ → B Bが複雑だということをどう表現するか. 例えば, 人間であれば「説明が簡単かどうか」を指標にすることができるこれをコンピュータに落とし込めば… [* 出力 $x$ を出力できるプログラムのうち, 最も文字数が短いプログラムの文字数] これをコルモゴ
2022年02月25日

Squeeze-and-Excitation

Squeeze Global Average Poolingで各チャネルの平均 $z$を取るチャネル数を少しだけ減らす Excitation 各チャネルについて, 平均 $z$から元の次元に戻す ↑チャネルごとにこいつで重み付け何が嬉しいの？空間方向だけでなく, チャネル方向の関係を捉えることが出来る例えば, ある特徴マップと別の特徴マップとで同じような部分に強い反応があれば, それらの関係を
2022年02月20日

KLダイバージェンス

分布 $p(x), q(x)$ がそれぞれどの程度似ているかを測る指標情報エントロピーの差を計算する $$KL(p||q) = \int_{-\infty}^{\infty}p(x)\ln \frac{p(x)}{q(x)}dx$$ 特徴対称性がないそれゆえ, 距離ではなく「擬距離」と呼ばれるらしい対称性を持たせるために左右反転したものの平均を取ることがある $$D_{JS}(p||q) = \frac{KL(p||q) + KL(q||p)}{2}$$ これをJSダイバージェンスと呼ぶらしい
2022年02月20日

情報エントロピー

要件確率を用いたいある独立な事象について, 情報量は加法的でありたい → つまり, ある独立な事象 $x, y$ について, $f(x,y) = f(x) + f(y)$ これらを満たすには, 積が加法的になれば良いので, $log$ が使えそうだよって, 情報量を $f(x) = -log(p(x)) $ とするこの”情報量”についての期待値を計算したものをエントロピーと定義する $H[y|x$ = -\sum_{x \in X} p(x) log(p(x)) ]
2022年02月20日

ラプラシアンピラミッド
2022年02月20日

Siamese Network

画像分類：与えられた1枚の画像がどのクラスに属するのかを学習 Siamese Network：与えられた2枚以上の画像が、それぞれ異なるクラスに属するのか同一のクラスに属するのかを学習 https://qiita.com/koshian2/items/a31b85121c99af0eb050 自己教師あり学習ラベル無しデータを用いた教師なし学習の一種例えば指紋認証人 $i$(クラス $i$) の人指し指は一つしかない普通, 教師あり学習は一つのクラスに大
2022年02月20日

Sentence BERT

得られる表現の埋め込み空間上での距離的な関係を学習するネットワークを Siamese Networkと言います対照学習とは違う？ SimCLRは対照学習 SimSiamは類似度ベース https://speakerdeck.com/sansandsoc/simsiam-exploring-simple-siamese-representation-learning?slide=4
2022年02月20日

subword

なので, 基本的にTransformer本人からすれば「未知語」というものは存在しない subwordとは？普通の単語はそのまま扱い, 固有名詞や数などはサブワードに分割例: “I have a new GPU!” → { ‘i’, ‘have’, ‘a’, ’new’, ‘gp’, ‘##u’, ‘!’ } / “annoyingly” -> {“annoying”, “ly”} これにより, 語彙数の爆発を防ぐ上で「普通の単語」と言ったが, 実装上は,「頻度が高いものはそのまま」「頻度が低いも
2022年02月19日

PageSpeed Insights

#web
2022年02月19日

magnitude

最初にメモリ上に展開するため, めっちゃ速い OOV (Out-of-Vocabulary) に強いらしい似ているOOV同士は近い所に埋め込みたい (1) 似てる単語があったら, その単語に近くなるように埋め込みたい (2) $oov_d(w) = [0.3OOV_d(w)+0.7MATCH_3(3,6,w)$] (1) → 似ている単語は同じ感じにしたい＝ OOV (2) → 似てる単語があったら, その単語に近くなるように埋め込みたい = MATCH 与えられた単語に近い単語上位3つの平均を取る mag
2022年02月19日

Class Activation Mapping
2022年02月19日

ABN: Attention Branch Network

ベースモデルをfeature extractorとperception branchに分割して, その間にattentionを計算するattention branchを挟む
2022年02月19日

eigenvalue

ｱｲｶﾞﾝﾊﾞﾘｭｰ
2022年02月19日

ViT

モデルは「ViT-(1)/(2)」という名前で表され(1)にはモデルサイズB/L/Hが入ります。(2)にはパッチの大きさの16や14などが入ります。ViT-L/16であればViT-Largeで入力画像のパッチの1つの大きさが16であるモデルのことです。 https://qiita.com/omiita/items/0049ade809c4817670d7
2022年02月19日

SAM : Sharpness-Aware Minimization

Optimizerの一つ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新 SAMは損失が最小かつその周りも平坦となっているパラメータを探す $$\min_{\mathbf{w}} L_\mathcal{S}^\text{SAM}(\mathbf{w})+\lambda|\mathbf{w}|_2^2$$ $L_\mathcal{S}^\text{SAM}(\mathbf{w})$ は以下のように定義. $L_\mathcal{S}$ は通常の損失関数. 何でもOK $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ ↑ 要はwの近傍まで考慮して最適化するので, 上図のように最小かつ周囲が平坦になる最大化するεは
2022年02月19日

Sequence to sequence learning with neural networks(2014)

#Computer #機械学習 [*** — 概要 — ] [** どんなもの？] 多層LSTMでML task(Machine-Translation-Task)を解く. LSTMを2回通す(encoder/decoder)ことで, T次元ベクトル→固定長の意味ベクトル→T ’ 次元ベクトルと変換することができる. (入力時に語順を逆さにする) [** どういう系譜？先行研究との
2022年02月19日

機械翻訳の評価指標

https://www.k-intl.co.jp/blog/B_220202A
2022年02月19日

Reversible Residual layers

機械学習
2022年02月19日

自動微分

https://gyazo.com/3e268654e8e64ed6859f39e3c9b3d951 w1, w2 を出発点として, w5までを連鎖律を用いて計算するのが「自動微分」(ボトムアップ) 数式微分・数値微分とも異なる自動微分には「ボトムアップ」と「トップダウン」がある具体的に求めてみるとこんな感じもしフルスクラッチで実装するなら, 初等関数を表現するクラスで導関数を定義すればOK？下の図はボトムアップの自動微分を図式化し
2022年02月19日

ReactorKit

iOS
2022年02月19日

Redux

iOS
2022年02月17日

Reformer

Attentionの計算量をO(NlogN)に従来のTransformerだと内積計算がネック類似度を計算しさえすれば良いベクトルを回転させてバケツにブチこむバケツごとに処理バケツ内は互いに近いベクトルのはず https://gyazo.com/9a2bf1939cfd7fd3bea5864b9664eed2 Reversible Residual layers Transformerを多層化するとそれだけの途中の状態を保存する必用がありますが、Reformerでし
2022年02月14日

SwinTransformer

認識する対象は画像中で様々な大きさを取る → パッチは対象物体をぶつ切りにする可能性があるのでまずい画像の解像度が高くなると計算量が膨大になる SwinTransformerの解決策 pooling-likeに, 画像の縦横を小さくしていく局所的なattentionを取る Swin Transformer Block ほとんどTransformerと同じ違うのはShif
2022年02月14日

論文について

https://iis-lab.org/misc/paperreading/
2022年02月14日

MetaFormer・PoolFormer

MetaFormer is Actually What You Need for Vision MetaFormerはモデルを抽象化したもの重要なのはToken mixing であるという主張 AttentionやMLP-mixerはtokenをごちゃまぜにしてる例えばMLP なら, 全結合によってごちゃごちゃになる Attentionではなく, Poolingでもいいんじゃね？ → PoolFormer https://twitter.com/sei_shinagawa/status/1472115254171947009 @sei_shinagawa MetaFormerの論文でも表6
2022年02月14日

What Does BERT Learn about the Structure of Language?

BERT の各層はそれぞれ異なる言語学的情報を捉えている中間層の表現は転移学習に用いるには有用後半に行くにつれてより高次元の意味的な情報を捉えている Sentence BERT → SBERT-WK https://aclanthology.org/P19-1356/
2022年02月10日

対照学習
2022年02月10日

自己教師あり学習
2022年02月10日

UNITER
2022年02月10日

Multios(zsh)

Multios https://zsh.sourceforge.io/Doc/Release/Redirection.html#Multios If the user tries to open a file descriptor for writing more than once, the shell opens the file descriptor as a pipe to a process that copies its input to all the specified outputs, similar to tee, provided the MULTIOS option is set, as it is by default. Thus: date >foo >bar writes the date to two files, named ‘foo’ and ‘bar’. Note that a pipe is an implicit redirection; thus date >foo | cat writes the date to the file ‘foo’, and also pipes it to cat. bashで「ls > test | cat」をしても何も表示されない一方でzshでは「ls > test | cat」でlsの標準出力が表
2022年02月09日

Nadaraya-Watson
2022年02月09日

Attention Branch Network
2022年02月06日

current directory

shellの勉強で気がついたのだが, どのプロセスもshellを経由することなくcurrent directoryを認識してる ls, pwdはshellで実行するもんだから, shellを経由してるみたいに見えるけど, よく考えたらそんなことしなくて良い current directoryはkernelが管理しているプロセスが呼ばれるたびにプロセス
2022年02月05日

REPL

Read-Eval-Print-Loop
2022年02月05日

Poor Man’s BERT
2022年02月04日

Gaussian Mixture Model

混合ガウスモデル GMM
2022年02月04日

SCDV

文書ベクトルを生成する文書分類タスク例えば, wikipediaのページであれば, トピックを意識したベクトルが生成できる word2vecで生成したベクトルをクラスタリング(Gaussian Mixture Model)して, クラスタごとに各ベクトルを修正する ↓ 各クラスタを中心にベクトルが引きつけられている https://gyazo.com/3eb39c40e6ba8fafc1886272245e7857 機械学習
2022年02月04日

Restricted Boltzmann Machines
2022年02月04日

協調フィルダリング

https://qiita.com/ogi-iii/items/ebfd77003d2dd18af13a https://qiita.com/ynakayama/items/ceb3f6408231ea3d230c ピアソン相関係数 → データが正規化されていないような状況でユークリッド距離よりも良い結果を得られることが多いとされています。 → なぜなら、ある評価者 A が辛口の評価を、評価者 B が甘口の評価をする傾向があったとします。しかしそれぞれのアイテムに対する評価の差に相関があった場合、これが高い相関係数を示すという特徴があるためで
2022年02月03日

CANINE

分かち書きフリーのNLPモデル https://gyazo.com/b528d46973abfaf5596a10d8b36ae12c Transformerベース入力はASCII ASCIIだとでかすぎるので, hashingによって圧縮トークンは文字なので, 事前学習時にただ単にmaskingしてもうまく行かない tokenizeしてsub-wordごとにmasking 日本語での実装例 https://github.com/octanove/shiba 機械学習 https://arxiv.org/abs/2103.06874
2022年02月03日

Temporal Fusion Transformer

Transformerベース解釈可能性に秀でている Variable Selection とmulti-head attention 時系列予測機械学習
2022年02月03日

疲労

「疲労が重なると、自分が工場にいる理由までも忘れ、こういう生活がもたらす最大の誘惑に負けそうになる。もうなにも考えないという誘惑だ。これだけが苦しまずにすむただひとつの方法だから。」（冨原眞弓編訳『ヴェイユの言葉』みすず書房、P219）シモーヌ・ヴェイユ
2022年02月03日

dropout

実質, 複数モデルのアンサンブルになる dropoutによってノードが選択されるので, 非活性化するニューロンが毎回の学習時に異なっていることで、それぞれのパターンで別々のモデルを学習していくことになり、つまり異なるモデルを学習している、とみなすことができます。 https://qiita.com/kuroitu/items/
2022年02月03日

構造化されていない
2022年02月03日

KL divergence
2022年02月02日

FLOPS

FLoating point number Operations Per Second 1秒間に浮動小数点演算が何回できるか
2022年02月02日

帰納バイアス

例えば線形回帰のinductive biasを考える．入力xと出力yは線形の関係であり，その目的関数は二乗誤差を最小化することにある．という制約が線形回帰のinductive bias．データの分布に何らかの制約（仮定）をおかないと，任意の値を求めるのは事実上不可能である． https://www.jonki.net/entry/2018/04/07/022743 学習データ以外に最初からもっている知識または仮説
2022年02月01日

Feature Store

#Computer ↑ 直で触っていると設計上良くない「特徴量の一貫性を保証し、かつ再利用が可能なプラットフォーム」
2022年01月29日

Vagrant

構成情報を記述した設定ファイル (Vagrantfile) を元に、仮想環境の構築から設定までを自動的に行うことができる[3]。最新版v3はGoで開発されている。 https://ja.wikipedia.org/wiki/Vagrant_(ソフトウェア)
2022年01月29日

論理シフト・算術シフト

signed → 算術シフト #Computer
2022年01月27日

拒否回避欲求
2022年01月26日

研究 > どうやったら質問が思いつくのか

→ 「情報の欠落に気づく」 →「欠落している情報を明確化する」細かい話はブラックボックス化して聞き、「何をしたか（What）」、「なぜ、それをする必要があるのか（Why）」、そして「結果として何が得られたか」だけをきっちり聞く。これらが説明不足だったり、「何をしたか（What）」と「なぜ、それをする必要があるのか（Why）
2022年01月23日

ロトスコープ
2022年01月19日

相関係数

予測間の相関が可能な限り最小になるモデル
2022年01月19日

Ablation Study
2022年01月19日

Label Smoothing

例えばクラス数3の場合 class=1の正解ラベル(1,0,0)を(0.8,0.1,0.1) に修正する感じ正解ラベルの制約を緩めることで過学習を防ぐことができる.
2022年01月16日

SenFormer

https://arxiv.org/pdf/2111.13280.pdf Semantic Segmentation COCO Staff でSOTA Self-Ensemble Feature Pyramid Networks (FPN)っぽい手法を用いてpyramidを構築機械学習論文
2022年01月16日

DeepL

https://togetter.com/li/1758185
2022年01月16日

ブランチ戦略

https://nainaistar.hatenablog.com/entry/2020/02/09/184517 https://speakerdeck.com/line_developers/flag-based-feature-management?slide=36 git mergeとgit rebaseの違い → https://momozo.tech/2021/02/06/結局mergeとrebaseは何が違うのか/ rebaseは文字通りcommitを付け替える感じ rebaseの他の使い方リベースにはブランチを統合する以外にも機能があります。例えばコミットの内容を変更する場合などです
2022年01月11日

ESC50

ESC-50は環境音を50クラス、2,000ファイル集めたデータセットです。 50クラスの環境音40ファイル/クラスで集めたもの(1ファイル5秒)で、400ファイルが1 foldという単位でグループ分けされている。readmeにも書いてあるが本来は以下のような形でcross validationを行って分類精度を出すべき引用
2022年01月10日

SpecAugment

https://qiita.com/shu_O/items/25a483ff3266d1482b31
2022年01月10日

Data augumentation

Mixup SpecAugment https://qiita.com/koshian2/items/d0661842eb66a7c0c0f3
2022年01月09日

モルフォロジー変換
2022年01月08日

nouveau

現在はNVIDIAのプロプライエタリなLinux用ドライバをリバースエンジニアリングして、 NVIDIAのビデオカード用のフリーなドライバを開発することを狙いとしている。引用’ https://ja.wikipedia.org/wiki/Nouveau デフォルトでインストールされているのはnouveauという別のドライバなので, 普通はnvidia-drivers を入れ直す
2022年01月07日

SQLだけで推薦システム

https://nnahito.com/articles/4 SQLのみで協調フィルダリング → https://qiita.com/yaiwase/items/96ec53f513863621d528
2022年01月03日

カメラキャリブレーション

参考: http://opencv.jp/sample/camera_calibration.html
2022年01月02日

Deep Feature Synthesis

複数のDataFrameが与えられたとき、aggregateしたり統計量を算出したり特徴量間の四則演算をやって特徴量を作成しますが、これらの作業をいい塩梅にやってくれるのがDeep Feature Synthesisであり、これをやってくれる関数がfeaturetools.dfs()です。参考: https://qiita.com/studio_haneya/items/6b5204899ea61366d494
2022年01月02日

特徴量エンジニアリング

featuretools では Deep Feature Synthesis と呼ばれる方法で新たな特徴を生成しています。DFSでは primitive と呼ばれる関数を使ってデータの集約と変換を行います。primitive の例としては、列の平均や最大値を取る関数を挙げることができます。また自分で定義した関数を primitive として使うこともできます。参考: https://qiita.com/Hironsan/ite
2022年01月01日

logmel

ログメルスペクトログラム（Log-melspectrogram） → 振幅スペクトルをメル尺度（実際の音と人間の音高知覚の差異を吸収したもの）で扱うためにメルフィルターバンクを適応たものです。参考: https://www.acceluniverse.com/blog/developers/2019/11/-cd-mir-mirmusic-information-retrieval-ismirmir201920.html
2022年01月01日

扇のかなめのような集注点を指摘し描写して、それから放散する連想の世界を暗示するものである。

夏目漱石寺田寅彦
2023年05月30日

ABCIで任意のDockerイメージを使用する

前提: ABCIとは AI橋渡しクラウド（AI Bridging Cloud Infrastructure、以下「ABCI」という）は、国立研究開発法人産業技術総合研究所が構築・運用する、AI技術開発・橋渡しのためのオープンな計算インフラストラクチャです。ABCIは、2018年8月に本格運用を開始し、2021年5月にABCI 2.0にアップグレードされ
2023年02月18日

【ECDH・aes128gcm】MissCatの通知システムについて

こんにちは．論文執筆真っ最中のYuWdです．最近，研究および論文執筆のタスクが落ち着いてきたのでMissCatの改修をボチボチ行っています． (MissCatとはiOS向けのMisskeyクライアント) 改修に着手するにあたって，まずは通知システムを直すところに目星をつけたのですが，昔の自堕落(ドキュメントを書かない性分)
2023年02月15日

ReduxとSwiftUIについて

Redux 状態は複数のView, Controllerが相互に依存するので管理が難しいそこで，相互にイベントを発火させるのをやめて，単一方向にのみ状態が流れるようにユーザ操作で変数が変更→変更を検知したらレンダリング → flux さらに，変数変更とレンダリングの間に更新ロジックを挟むのがRedux Reduxはグローバルな状態を管理するのが
2023年02月06日

【LangChain】Agentの仕組みを理解して, 任意のLLMを使用する

OpenAIの提供するGPT-3には何種類かある text-davinci-003 / text-curie-001 / text-babbage-001 / text-ada-001 特にLangChainでは最も性能の良いtext-davinci-003が使用されている．だが，APIは金が掛かるのでなるだけフリーのLLMが使いたい → transformers-openai-api等で偽サーバを建てて，APIのオリジンをすり替えると任意のL
2022年12月16日

【論文メモ】On the Versatile Uses of Partial Distance Correlation in Deep Learning

はじめに ECCV22のbest paper https://twitter.com/eccvconf/status/1585560616688881664 #ECCV2022 Paper Awards pic.twitter.com/u9awGVCgSr — European Conference on Computer Vision (ECCV) (@eccvconf) October 27, 2022 概要二つのモデルの挙動を比較することは極めて重要しかし, それぞれが異なるアーキテクチャにおけるモデルの比較方法は依然として研究が不十分. そこで, この論文では(Partial) Distance Correlationを機械学習に応用する手法を提案. (Partial) Distance Correlation
2022年11月16日

【論文メモ】Few-shot Relational Reasoning via Connection Subgraph Pretraining

はじめに NeurIPS22 Few-shotにおける knowledge graph completion task を行う上図のように, Background KG (knowledge graph)とsupport setが与えられた状態で, Query setのrelationを推論するタスク Connection Subgraph Reasoner (CSR)を提案 Few-shot KG Completion KGは $\mathcal{G} = (\mathcal{E}, \mathcal{R}, \mathcal{T}) $で表されるここで, $\mathcal{E}, \mathcal{R}$はそれぞれentityとrelationで, $\mathcal{T
2022年11月02日

【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers

はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある残差接続により, より深い層数のNNを実現できるようになった残差接続に対する解釈の矛盾昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっているしかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ
2022年10月19日

【論文メモ】Lifting the Curse of Multilinguality by Pre-training Modular Transformers

NACCL22 多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在するこの「多言語の呪い」を対処するモデルとしてX-MODを提案概略言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせるそれ故, 拡張は容易で, 学習・推
2022年10月18日

【論文メモ】SimCSE

ENMLP21 Supervised SimCSE 含意関係にある文を正例として対照学習 NLIデータセット Unsupervised SimCSE 同じ文を二回埋め込んで対照学習 dropoutの影響で微かに異なる二つのベクトルに対して対照学習引用: https://www.slideshare.net/DeepLearningJP2016/dlsimcse-simple-contrastive-learning-of-sentence-embeddings-emnlp-2021
2022年09月24日

【論文メモ】Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective

はじめに CVPR22 決定境界を描画し, 再現性と汎化性について定量的に考察した論文決定境界の描画 (領域の決定) 如何に決定境界を描画するかが重要になってくるその上でまず, データ多様体 $\mathcal{M}$の近傍(on-manifold)を取るのか, $\mathcal{M}$から離れた領域(off-manifold)を取るのかを考
2022年09月19日

【論文メモ】Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

PMLR20 trainとtestで分布が違う場合の再学習手法TTT(Test-Time Training)を提案まずは普通に学習次にモデルを前半(A)と後半(B)に分けて, 元のA + 新しいB’ のモデルで自己教師あり学習を行う headを取っ替えるイメージ (B→B') このとき, testサンプルを使用して自己教師あり学習を行う
2022年09月19日

【論文メモ】Energy-Based Learning for Scene Graph Generation

はじめに Energy Based Modelを用いて画像からscene graphを生成する手法(フレームワーク)を提案既存手法は次のようにクロスエントロピーでscene graphを生成する $$\log p(SG|I) = \sum_{i \in O} \log p(o_i| I) + \sum_{j \in R} \log p(r_j | I).$$ このとき, object $O$とrelation $R$が互いに独立に計算されているここが問題で, 本来なら互いに弱い依存性があるはずし
2022年08月28日

【論文メモ】Your classifier is secretly an energy based model and you should treat it like one

分類問題について, 生成モデルで用いられるEnergy Based Modelに基づいた学習手法を提案一般的な学習あるNNを $f_\theta(x)$とすると, 出力の $y$番目を $f_\theta(x)[y\rbrack$として, softmaxは以下のように表される $$p_{\theta}(y|{\bf x}) = \frac{\exp{\left(f_{\theta}({\bf x})[y\rbrack \right)} } { \sum_{y^{\prime}}\exp{\left(f_{\theta}({\bf x})[y^{\prime}\rbrack \right)} }$$ ここで, Energy Based Modelでは $$p_{\theta}(\boldsymbol{x},y) = \frac{\textrm{exp}(-E_{\theta}(\boldsymbol{x},y))}{Z_{\theta}}$$ と定義される
2022年08月24日

【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

CVPR22 タスク: KB-VQA 質問画像に含まれていない知識を要する質問に回答するタスク例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない新規性知識グラフの構築は行わない scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用い
2022年08月24日

【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval

Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正代名詞の解釈複数名詞への対応 → ノー
2022年08月17日

【論文メモ】Neural Networks and the Chomsky Hierarchy

Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中例えば, Transformer
2022年08月16日

【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation?

はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって
2022年08月16日

【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation

評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えないそこで, scene graphを用いた評価指標SPICEを提案実際, 画像キャプショニングモデルではよく見かける指標となってきた流れ ① 複数キャプションからscene graphを生成 scene graph
2022年08月10日

【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とするイ
2022年08月02日

【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners

グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成入力についてまず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とするそのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力トーク
2022年08月01日

【論文メモ】Why do tree-based models still outperform deep learning on tabular data?

なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文１つ目: NNは高周波数成分の学習に弱いなので, 飛び値的なデータに弱い一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver:
2022年08月01日

【論文メモ】Deformable Attention Transformer

詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求めるオブジェクトごとに受容野を歪めることができる
2022年08月01日

【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations

輪講スライド背景 Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 MoCo SimCLR SimSiam など Instance-wiseな⼿法における２つの問題点 1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク → **⾼密度な情報をエンコードしているとは⾔い難い ** 2- ペア間
2022年08月01日

【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

はじめに SAMの改良 (SAM : Sharpness-Aware Minimization) Surrogate Gap Minimization Improves Sharpness-Aware Training 論文メモ問題提起 SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ 例えば下の図では, 近傍 $f_p$について最適化すると, SAMの場合, 青に収束してしまう危険がある本当に見るべきは以下に定義するsurrogate gap $h(x)$ $$h(x) := f_p(x) - f(x)$$ surrogate gap $h(x)$については, H
2022年07月30日

【論文メモ】RegionCLIP: Region-based Language-Image Pretraining

問題点: CLIPは画像全体を用いるため, 物体検出には向かないそこで, 本論文ではCLIPをRegion-text matchingへと拡張した CLIPを用いた open-vocabularyな物体検出タスクが行える open-vocabulary object detection 関連研究としてViLDを挙げている ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation CVPR22 流れ [RPN](Resion Proposal Network)を用いて候補領域を探す RP
2022年07月28日

【論文メモ】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

Attentionはglobalでdynamic dynamicについては On the Connection between Local Attention and Dynamic Depth-wise Convolution しかし global→SwinTransformerを見るとそこまでViTの精度に関係なさそう dynamic→MLP-Mixerを見ると, MLPはstaticなので精度に関係なさそうそこでShiftViTを提案上図のように, 入力の
2022年07月25日

【論文メモ】BoxInst: High-Performance Instance Segmentation with Box Annotations

Instance SegmentationをBBOXのみで学習するモデルを提案 BBOXのみで学習するのでアノテーションが必要ないのが利点新たな損失を提案 Projection Loss Pairwise affinity Loss todo
2022年07月25日

【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しないそのようなモデルでは, 「画像にりんごはいくつあるか？」などといったVQAタスクすら解けない(可能性が高い) そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論し
2022年07月25日

【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

提案手法は主に２つの機構で構成される Multimodal mixture of Encoder-Decoder (MED) Captioning and Filtering (CapFilt): CLIPの使用するデータセットはnoisy なので, キャプションの取捨選択を自動で行う機構を導入流れノイズを含む元のデータセットでMEDを学習事前学習されたMEDを用いてCapFiltを実行 CapFiitによって得られたデータセットを用いて再度MEDを学習 MED Image-TextContrastiveLoss(ITC) 画像特徴
2022年07月21日

【論文メモ】Large-Scale Adversarial Training for Vision-and-Language Representation Learning

各モダリティについて摂動を加えて学習
2022年07月18日

【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution

AttentionとDepthwise-Conv(DwConv)は似ているよ, という論文上図は画像をflatten or patchifyしたものがspatial方向であると捉えればOK (a): 畳み込みある区間の画素値と複数チャネルを使って一つの埋め込みを生成 (c): DepthWise と local attention ある一つのチャネルに対して, 区間の画素値のみから生成 (Poin
2022年07月17日

【論文メモ】Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem

単語の埋め込みを一次元で行う TSPを解くだけ論文中ではWord Tour と呼んでいる GBDT等の決定木ベース手法が解釈しやすいようにWord Tour を使うとうまくいく場合があるらしい例えば, NNで特徴量を作った後に, Word Tourでクラスタの重心を一次元に埋め込んでGBDTに掛ける的な https://twitter.com/Py2K4/status/1545215820413865985
2022年07月15日

【論文メモ】Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection

モデルを学習させることなく, 異常検知を行う流れ事前学習済みEfficientNetに正常データを流すモデルの中間層で抽出された正常データの特徴量を, 各層ごとに多次元正規分布で近似得られた分布を正常データの分布と仮定し, マハラノビス距離を用いて異常検知例えば下図だと, 32x112x112の特徴量をGlobal Average Pooli
2022年07月12日

【論文メモ】Representation Learning on Graphs with Jumping Knowledge Networks

概要隣接ノードからのaggregationだけでは, k層のGCNはただのrandom-walkと変わらない r.w = random-walk 濃い色のノードはInfluence Probabilityの高いもの各ノードの影響範囲が大きくてもダメだし, 小さくてもダメなので, 各層の出力をすべて使用し, モデルに適切な影響半径を決めさせるJumping Knowledge Ne
2022年07月12日

【論文メモ】Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

NeRFで用いられるPositional Encodingについて, NTKによる分析を行った論文 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ NeRFのPositional Encoding をバンドパスフィルタと考える低周波数成分→高周波数成分への写像関数の学習 Positional Encodingを入れるかどうかでだいぶ精度が変わる例えば(b)の場合, (x,y) の座標値からRGBを復元するML
2022年07月11日

【論文メモ】Perceiver: General Perception with Iterative Attention

Transformer を改善 Qを潜在変数とすることで, $L^2$の呪いから解放してあげる音声系 / 時系列予測にも適してる潜在変数をcentroidとして, 高次元の入力 $x$ をend-to-endでクラスタリングしてるとも捉えうるつまり, 入力 $x$をタグ付けしてるイメージ (と論文内で言っている) Positional Encoding 普通のPEの代わりに, フーリエ変換した特徴量を使
2022年07月11日

【論文メモ】NeRF

Positional Encoding 低周波成分である $(x,y,z,\theta,\phi)$から高周波成分である $(R,G,B,D)$を復元するため, 以下に示すPositional Encodingを通したあとにMLPに入力 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ この機構をNTKによって実験した論文→ Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains このPositional Encodingはフーリエ特
2022年07月07日

【論文メモ】SAF: Sharpness Aware Training for Free

todo
2022年07月07日

【論文メモ】Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

VLN-DUET 概要 localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索各ノードには, viewから得られた特徴量を埋め込み表現として保持する行動 $a^\pi$は各ノードへの尤度によって表現され, ノ
2022年07月07日

【論文メモ】Graph Transformer: A Generalization of Transformer Networks to Graphs

任意のGraphに適応可能な, 汎用Transformer Positional Encodingがラプラシアン行列の固有値で表現されるラプラシアン行列の固有値 $\lambda$は頻度・周波数的な側面を持つ → グラフ上のフーリエ変換・畳み込みでは $\lambda$が使われる (いつかまとめる→todo) todo https://arxiv.org/pdf/2012.09699v2.pdf
2022年07月07日

【論文メモ】ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

Open-Vocabulary (任意テキスト入力)な物体検出モデル classifierがCLIP特徴量になっている
2022年07月07日

【論文メモ】SwinIR: Image Restoration Using Swin Transformer

残差接続が大量にあるの面白い多分だけど, 真っ黒から真っ黒への変換みたいな無意味な変換によって重みの学習を引っ張られたくないので, クソデカ残差を入れているのだと思う (オキモチ) SwinTransformerのおかげでパラメタ数はかなり減っている
2022年07月07日

【論文メモ】LXMERT

ViLBERTとの大きな違いは, ROIのみを入力とする点
2022年06月27日

【論文メモ】Do Transformer Modifications Transfer Across Implementations and Applications?

Transformerの改善案は大量にあるが, 本当に有効なのはどれだけあるの？という論文結論 (有効な改善方法) 活性化関数: GLU+GeLU/Swish 正規化: RMS Norm パラメタ共有: デコーダの入出力における埋め込み表現を共有すると良いアーキテクチャ Mixture of Experts Transformer Synthesizer Product Key Memory
2022年06月27日

【論文メモ】CP-GAN

todo
2022年06月27日

【論文メモ】CLIP

CLIPによって, image↔textの特徴量変換が容易になったと言える → ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation
2022年06月26日

【論文メモ】HAMT - History Aware Multimodal Transformer for Vision-and-Language Navigation

パラメタの更新にActor-Criticを使用強化学習と模倣学習の両方を組み込んでいる
2022年06月26日

【論文メモ】SOHO - Seeing Out of tHe bOx : End-to-End Pre-training for Vision-Language Representation Learning

クラスタリングの上位互換みたいなことをするパッチを特徴空間に飛ばすパッチに映る物体が同じ種類の物体なら, その特徴が同じクラスタidに含まれるように学習
2022年06月26日

【論文メモ】REVERIE - Remote Embodied Visual Referring Expression in Real Indoor Environments
2022年06月19日

【論文メモ】Maximum Classifier Discrepancy for Unsupervised Domain Adaptation

Domain Adaptation 従来手法 : sourceとtargetとで分布が違うはずなのに, ドメイン同士の境界(赤線)を基準に近づけようとしている → 分布の違いを考慮しつつ決定境界を修正する必要がある → GAN GAN風に学習する２つのclassifierとそれらを生成するgenerator
2022年06月15日

【論文メモ】Manifold Mixup: Better Representations by Interpolating Hidden States

どういうの？無作為に選んだ層までは普通に計算して，その層の出力の複数をランダムに選んでMixup そのままその値を使って最終層まで計算＆lossを計算し, 逆伝播決定境界が滑らかになるらしい簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい flatten=小さい部分空間で表現できるというこ
2022年06月14日

【論文メモ】Un-Mix

$I_A$ にCutMixとMixup を掛ける ( Mixup: $I_{A}^{M}=\lambda I_{1}+(1-\lambda) I_{2}$) 画像の混合比率 $\lambda$ に応じて, 正例間の意味的距離を調節 $$\mathcal{L}_{final}!=!\mathcal{L}_{ori}+\underbrace{\lambda \mathcal{L}_{m}!(I_A^{M} (\downarrow), \hat I_A)}_{\text {normal order of mixtures}}!+!\underbrace{(1!-!\lambda) \mathcal{L}_{m}!(I_A^{M} (\uparrow), \hat I_A)}_{\text {reverse order of mixtures}} $$ Mix方法は, 単純にミニバッチを反転させて, indexごとにmixするだけ Mixup が効いて, より決定境界が明瞭に
2022年06月13日

【論文メモ】SwAV

Unsupervised Learning of Visual Features by Contrasting Cluster Assignments Prototypical Contrastive Learning of Unsupervised Representations より複雑なことしてる Sinkhorn-Knoppアルゴリズムを用いてクラスの割当を最適化
2022年06月13日

【論文メモ】Sinkhorn Distances: Lightspeed Computation of Optimal Transport

Sinkhorn-Knoppアルゴリズムによって, 最適輸送距離を近似
2022年06月12日

【論文メモ】Supervised Contrastive Learning

Prototypical Contrastive Learning of Unsupervised Representations と同じ動機本来類似度が高くても負例ペアは負例ペアとして認識してしまうので, よくないよね → ラベル情報を使いましょう → [* 教師あり対照学習] こうじゃなくて (一番下の犬がtarget) こうしたい
2022年06月09日

【論文メモ】Multi-level Wavelet Convolutional Neural Networks
2022年06月08日

【論文メモ】Transformer Interpretability Beyond Attention Visualization

LRPをTransformerにも使用できるようにしたもの LRPでは行列和や行列積に対応できない → いい感じに代替
2022年06月08日

【論文メモ】This Looks Like That: Deep Learning for Interpretable Image Recognition

割と学習が難しいらしい？ Clst: 潜在変数をパッチ単位で分割して, クラスタリング Sep: クラスタ同士を遠ざけるように学習
2022年06月08日

【論文メモ】Affinity loss

ソフトマックスにクラスタリングの要素を持ち込んで、不均衡を是正するアルゴリズム. サポートベクターマシンのようなマージン最大化問題を考える
2022年06月07日

【論文メモ】Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

事後的な説明性は必ず近似を含むので, モデルの説明にはならないなので近似を含ませずに直接解釈可能なモデルを作らねばならないステークホルダーは解釈可能性よりも, とりあえず「説明」がほしいということがよくあるなので, 決定木ベースであったり, スコアリングベースの手法がビジネスで使われてしまうまたステークホルダーは説明性を出力し
2022年05月29日

【論文メモ】Less complexity one-class classification approach using construction error of convolutional image transformation network

如何に異常検知を行うか？例えば, りんご以外を弾くようなモデルはどのように作れば良いのか本論文では, AutoEncoder と同じ格好で, りんごだけをすべてLennaに変換するように学習するなので, りんごでない部分が入力された際は変な画像が生成されてしまうことになる
2022年05月28日

【論文メモ】IA-RED2

AdaViTから引用されているパッチを途中でdropさせることができるめちゃくちゃ速い強化学習っぽく学習
2022年05月28日

【論文メモ】MixFormer

SwinTransformer の Local-window と, DwConv (PointWise・Depthwise) を並列に接続なぜ？
2022年05月28日

【論文メモ】CycleMLP

従来のMLPモデルの問題点を克服 (Channel FC:性能が不十分、Spatial FC:計算量が多い) 任意の画像サイズに対応可能なCycle FCを提案 SwinTransformerよりも受容野が広いらしい
2022年05月23日

【論文メモ】Pix2seq

入力 : 画像出力 : $(y_{\text{min}},x_{\text{min}},y_{\text{max}},x_{\text{max}},c)$ 普通のMLMと同じ感じで, 学習. $$\text{maximize}\sum_{j=1}^{L}\bm{w}_{j}\log P(\tilde{\bm{y}}_{j}|{\bm{x}},{\bm {y}}_{1:j-1})~{},$$
2022年05月20日

【論文メモ】ROAR

何らかの基準でマスクして, 説明指標を評価マスクした画像がOODにならないように, マスクした画像を使って更に学習マスク方法 → 比較対象は Random / Sobel 比較されている手法は grad / Guided Backprop / Integrated Gradients / SmoothGrad / SG-SQ / VarGrad 最も良い結果が得られたのはSG-SQとVarGrad
2022年05月18日

【論文メモ】FullGrad

Saliency Map は Weak dependenceとCompletenessを満たす必要がある Weak dependence Saliency Map $S(x)$ と入力 $x$ に弱い依存関係がある状態ここでは, $x$ がどの集合に属しているかで $f(x)$ が定まる状態と定義 Completeness Saliency Map $S(x)$ と入力 $x$ から元のモデル $f(x)$が復元できる状態例えば, バイアス $\boldsymbol{b}$を使わずに生成した $S(x)$では復元でき
2022年05月17日

【論文メモ】RelTransformer

タスクはVRR (Visual Releationship Recognition) 既存手法はGNNなどが多いが, GNNは近傍しか見ておらず, 自分に近いところの関係しか見ていない例: 野球野球選手とバットだけを見るよりも, 周りのキャッチャーやピッチャーの情報もコンテキスト情報として有益着目物体 $n_s $と物体 $n_o$ と, その関係 $r$ のtripletを入力して, encode encodeしたtripletから,
2022年05月16日

【論文メモ】TCFormer
2022年05月15日

【論文メモ】SiT
2022年05月15日

【論文メモ】Learning multiple visual domains with residual adapters

カーネルを選定するようなサブネットワークを作成する Adapter todo: できればもう一度読み返したい
2022年05月12日

【論文メモ】Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition

Adapt-and-Adjust (A2), end-to-endの多言語音声認識モデル multilingual language modelをspeach-decoderとする Dual-Adaptersを採用言語ごとに特徴抽出器を切り替えるイメージこれってほんとに言語ごとに切り替わってるの？ Adapterは Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Modelが初出？ → と思ったら違った初出: Learning multiple visual domains with residual adapters
2022年05月12日

【論文メモ】Two-phase training mitigates class imbalance for camera trap image classification with CNNs

Decoupling Representation and Classifier for Long-Tailed Recognition と真反対の手法 step1. balancedなデータセットで学習 step2. 特徴量抽出器の重みを固定して, 元のデータセットで線形分類器だけfine-tuning Class-specific F1-Scoreを用いて評価
2022年05月12日

【論文メモ】Decoupling Representation and Classifier for Long-Tailed Recognition

クラス間の分布が違う=クラス間不均衡による影響についての論文一般にモデルは「特徴量抽出器」と「クラス分類器」で構成されているクラス間の分布が違う場合, 「特徴量抽出器」と「クラス分類器」のどちらに悪影響か？答えは「クラス分類器」特徴量の抽出においては, そこまで悪い影響はないらしいクラス分類器 : 写像された特徴空間において,
2022年05月10日

【論文メモ】Rethinking the Value of Labels for Improving Class-Imbalanced Learning

不均衡データには正と負の両方の側面がある正の側面性能に寄与する → 負の側面サンプル数が多いクラスに引っ張られて決定境界が歪む → https://arxiv.org/abs/2006.07529
2022年05月10日

【論文メモ】No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for Training Large Transformer Models

https://arxiv.org/pdf/2202.02664.pdf
2022年05月10日

【論文メモ】Should You Mask 15% in Masked Language Modeling?

https://arxiv.org/pdf/2202.08005.pdf
2022年05月10日

【論文メモ】Masked Siamese Networks for Label-Efficient Learning

MAEっぽく, パッチをマスクしたものと元画像の間でSiamese Network https://www.slideshare.net/DeepLearningJP2016/dlmasked-siamese-networks-for-labelefficient-learning
2022年05月10日

【論文メモ】Self-Distillation Amplifies Regularization in Hilbert Space

Self-Distillation が如何に効いているかを理論的に解析 Mercer’s theorem https://arxiv.org/pdf/2002.05715.pdf
2022年05月10日

【論文メモ】Self-Supervised Learning for Semi-Supervised Time Series Classification

https://www.ismll.uni-hildesheim.de/pub/pdfs/pakdd_shayan.pdf
2022年05月10日

【論文メモ】ConvMAE

Convolutionを用いたViT におけるMAE を提案 https://arxiv.org/abs/2205.03892
2022年05月10日

【論文メモ】Self-supervised Learning is More Robust to Dataset Imbalance

自己教師あり学習 → 不均衡データに対して強いロバスト性ありラベルに囚われない表現も学習してくれるので, ロバスト性が強い事前学習時はSAMを使うとよいらしい (SAM : Sharpness-Aware Minimization)
2022年05月09日

【論文メモ】PVT

Pyramid Vision Transformer PVT v2では Positional Encodingが存在しない https://twitter.com/yu4u/status/1522360958228000769 FFNにzero padding付きのdepthwise convを入れることで位置情報をencodeさせて, Positional Encodingを置換 zero paddingに重要性がある → How Much Position Information Do Convolutional Neural Networks Encode?
2022年05月09日

【論文メモ】AdaViT

残差構造・selection構造を組み込んだViT Patch Selection : パッチを選定 Head Selection : ヘッドを選定 Block Selection : MHA・FFNを使うかどうか選定 https://arxiv.org/abs/2111.15668
2022年05月09日

【論文メモ】Attention on Attention

https://arxiv.org/abs/1908.06954
2022年05月06日

【論文メモ】How Much Position Information Do Convolutional Neural Networks Encode?

仮説 : CNNは絶対的な位置情報を獲得している PoSENet : 位置情報のmapを予測するモデルを構築して仮説を検証 $f_{enc}$が位置情報がエンコードするなら, $f_{enc}$の中間層の出力から, 位置情報を復元できるはず f1よりもf5のほうが位置mapの精度が高いより深い層のほうがより強く位置情報を保持している仮説「位置情報は
2022年04月27日

【論文メモ】CMO

不均衡データに有効なaugmentation手法であるCMOを提案 Influenced-Balanced Loss と同じ著者
2022年04月24日

【論文メモ】cosFormer

ICLR 2022 普通のTransformer $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$ expが括り出せれば, iとjとで分離できる → Linear Attention: Transformers are RNNs Attentionにおけるsoftmaxの重要な特性 Attention Matrix $A$が非負であること ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる非線形な重み付け ReLUよりもsoftmaxのほ
2022年04月15日

【論文メモ】Double Descent

U字からlossが落ちていく減少例えばシンプルな構造のニューラルネットワークと複雑なニューラルネットワークがあったとします。前者については従来から言われているように"under-fitting"と"over-fitting"からなるU字型の特性が観測できますが、後者は複雑にしてい
2022年04月14日

【論文メモ】Deformable Conv

[**** https://gyazo.com/e4c2ed2a441c686afa02f2e0625b373f ] https://arxiv.org/abs/1703.06211
2022年04月11日

【論文メモ】Fine-tuning CNN Image Retrieval with No Human Annotation

todo https://arxiv.org/abs/1711.02512
2022年04月11日

【論文メモ】CvT

Convは高いロバスト性を持つ例えば画像のシフトに強かったり ⇒ ViTにConvを導入 Conv自体はパッチ分割 & 線形変換と同じ CvTはパッチ同士が重なり合う Positional Encodingは行わない Convが同じことをやってるらしい … ? How Much Position Information Do Convolutional Neural Networks Encode?
2022年04月07日

【論文メモ】SmeLU

ReLUの原点での急な変化を, 2次関数で補完することでスムーズにした活性化関数 SmeLU (Smooth ReLU)を提案リコメンデーションシステムにおいては, 再現性の低さは致命的となる ReLU は勾配がジャンプするので(sudden jump), 損失平面に局所領域ができてしまうそのため, 遷移領域が狭まる遷移領域が狭まってしまうと局所的な遷移しかしないので, モデ
2022年03月30日

【論文メモ】ConvNext

ResNetを現代風に DepthWiseにしたり (PointWise・Depthwise) カーネルサイズ変えたり bottleneck内のレイヤーの順番を変えたり BNからLNにしたり地味に実装でtimmつかてますねん https://github.com/facebookresearch/ConvNeXt/blob/d1fa8f6fef0a165b27399986cc2bdacc92777e40/models/convnext.py
2022年03月30日

【論文メモ】DeepNet

モデル更新量を見るモデル更新後, 出力がどの程度変化したか具体的には、まず、18レイヤーの通常の Post-LN トランスフォーマーを訓練させた場合、訓練が不安定であり、検証セットの損失関数の値（ロス）が収束しないことを示しています。このとき、「モデル更新量 (model update)」、すなわち、初期化時に比べて、モデルの更新後に、出力の値がどの
2022年03月30日

【論文メモ】Attention Bottlenecks for Multimodal Fusion

https://arxiv.org/abs/2107.00135
2022年03月30日

【論文メモ】Don't Decay the Learning Rate, Increase the Batch Size
2022年03月30日

【論文メモ】ViLBERT

BERT同様, 転移学習モデルなので, IMGトークンやCLSトークンを導入する画像の埋め込みはどういう実装…? 例えばViTだと, 普通に行列 $E$を掛け合わせている or ResNetを用いる (これをハイブリット方式と呼ぶ) 各パッチをEで埋め込み、CLSトークンを連結したのち、位置エンコーディングEposを加算して
2022年03月30日

【論文メモ】gMLP

https://ai-scholar.tech/articles/transformer/mlp_transformer
2021年12月31日

メル尺度

心理学者のStanley Smith Stevensらによって提案された、人間の音高知覚が考慮された尺度です。 1000Hzの純音の高さの感覚を1000メルと決めた上で、1000メルの半分の高さに感じた音を500メル、1000メルの2倍の高さに感じた音を2000メルという容量で定めたものです。 Deep Learning for Audio Signal Processing → Deep Learningにおいて
2021年12月31日

振幅スペクトル

横軸: 周波数縦軸: Fの絶対値の2乗（＝パワー） → 「パワースペクトル」と言う．横軸: 周波数縦軸: Fの振幅の絶対値 → 「振幅スペクトル」と言う．参考: http://www.isc.meiji.ac.jp/~mcelab/www_jyo_en2/jyo_en_2_7_j_2015_f/index_sj.html#:~:text
2021年12月31日

環境音の認識

#機械学習ディープラーニングによる環境音の認識 → https://qiita.com/shinmura0/items/6befb83f7cde7b091905#精度向上の歴史 → 音の前処理は通常logmelを用います → logmelで処理することにより、音の生波形を周波数と時間方向で表現でき、音を画像として扱うことができます
2021年12月31日

キャリブレーションについて

https://data-analysis-stats.jp/機械学習/キャリブレーション（calibrated-classifiers）/
2021年12月31日

推薦システム

協調フィルダリング
2021年12月31日

GRU (ゲート付き回帰ユニット)

#機械学習 **ゲート付き回帰ユニット（GRU）は、LSTMの変化形のネットワークになります。LSTMよりもゲートが1つ少なく、配線が少し異なります。**入力ゲート、出力ゲート、忘却ゲートの代わりに更新ゲートがあります。更新ゲートは最後の状態からどれだけの情報を保持し、前の層からどれだけの情報を取り込むかを決定します。リ
2021年12月24日

HARKingについて

https://twitter.com/tmaehara/status/1474241494282350615 https://twitter.com/ykamit/status/1077716200845500416 https://ja.wikipedia.org/wiki/HARKing
2021年12月14日

スプレッドオペレータ
2021年11月23日

bcrypt
2021年11月13日

レインボーテーブル
2021年11月09日

始祖ユミル → 優先度付きラウンドロビン
2021年11月09日

Infrastructure as Code (IaC)
2021年11月06日

ラヴェル「水の戯れ」

Jeux d’eau 多角性フーコーとベラスケス
2021年11月05日

RIP・OSPF
2021年11月04日

stdarg.h

#Computer #C #** va_〇〇 1 2 3 4 ++void va_start(va_list ap, last); type va_arg(va_list ap, type); void va_end(va_list ap); void va_copy(va_list dest, va_list src); va_list はただのchar * 1 typedef char* va_list 1 printf( "%d %f %s\n", 123, 4.56, "test"); → va_list = int(4bytes) | float(8bytes) | char*(4bytes) → va_startはポインタをva_listの先頭に設定. → va_argはtypeで指定された型分ポインタをずらしていくだけ #** usage 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ++#include <stdio.h> #include <stdarg.h> void foo(char *fmt, ...) {
2021年11月04日

MEC

#Computer #Network
2021年10月30日

ジョジョ三部承太郎

→ 精密さとは, 時を静止することに近しいジョジョ
2021年10月22日

Paul Klee ・Christian Morgenstern

パウル・クレー「造形思考」上より [https://gyazo.com/257d779c676cd6f85d8336f4c18852b1 「うろこのある魚」 → 鱗状の文様の反復が最も基本的なシステムを構成している. → 鱗が最小の構成単位を成している. → それに対して, 1「頭」2「胴」3「ひれの「かたち(意味)」は基本的な差異線を成していると同時に, 分割された最小単位の反復からも成り立っている. → 分割的な「うろこ」による非分割的
2021年10月21日

Core Animation と CALayer

#iOS Core Animation → レンダリングとアニメーションの処理を担う. Core Animation is a graphics rendering and animation infrastructure available on both iOS and OS X that you use to animate the views and other visual elements of your app. https://developer.apple.com/library/archive/documentation/Cocoa/Conceptual/CoreAnimation_guide/Introduction/Introduction.html#//apple_ref/doc/uid/TP40004514-CH1-SW1 UIView → 表示するオブジェクトを管理し, レイアウトやタッチイベントなどを処理. layerオブジェクト → アプリのデータを管理するモデルオブジェクト. → layerは情報をbitmap形式で管理 → 基本的にはメインスレッド
2021年10月20日

project.pbxproj の構造

#Computer project.pbxprojの全体構造 1 2 3 4 5 6 7 8 9 { archiveVersion = 1; classes = {}; objectVersion = 46; objects = { .... hoge_hoge .... } rootObject = 9D6B60051BC4FC8A0034855E /* Project object */; } objects 1 2 3 4 5 6 <id> = { <key> = <value>; <key> = <value>; .... }; ... の形でファイルやフォルダ構造等が記述. の中でも特に, isa=オブジェクトのタイプ,**Refにファイルに対応するユニークID(A 96 bits identifier)**が記述される.
2021年10月19日

記号の表層に転移して浮遊する
2021年10月15日

メノン (対話篇)

「人間は, 自分が知っているものも, 知らないものも, 探求することができない. 第一に, 知っているものを探求することはありえない.知っている限り, 探求する必要はないからである. また, 知らないものを探求することもありえない. その場合には, 何を探求するべきかも知られていないからである.」 → 探求のアポリア
2021年10月15日

ジョジョ5部・円環・過程・内部分裂メモ

→ 生命を与える=未来=時間をすすめる → “エクスペリエンス”=過去=時間を巻き取る → 時間を円環に投げ込み, 結果を宙吊りにする. (円環というか螺旋の射影) → 過程 vs 結果の対立 (過程側) → エピローグ「眠れる奴隷」ディアボロ → “キング・クリムゾン”=時間を止め, 知覚不能にする → 過程
2021年10月14日

Hooked

Trigger → Internal / External Action Eyal draws on B.J. Fogg’s work regarding persuading users to perform a desired behavior, as follows: The user must have motivation (M). The user must have the ability to complete the action (A). A trigger (T) must be present to activate the behavior. In short, Fogg’s formula is B = MAT. Variable Reward Rewards of the tribe is a social rewards fueled by connectedness with other people. Rewards of the hunt is the search for material resources and information. Rewards of the self is the search for intrinsic rewards of mastery, competence, and completion. → 社会(外的)・物理・内的 Investment → “a bit of work” (not passive but active) For example, in the onboarding processes for Pinterest, Facebook, and LinkedIn. In the case of LinkedIn, the application presents users with a graph that illustrates the strength
2021年10月10日

角川俳句 2021 10月号

二物衝撃 → 「子を殴ちしながき一瞬天の蟬」秋元不死男 → 好き (西村和子) 「林檎剥き分かつ命を分かつべく」
2021年10月08日

テストについて

#開発 #テストテストケースを如何に作るか・EP-BVA手法・ペアワイズ法 → → 各属性の全パターンを網羅しようとすると計算量爆発するので, 任意の二項間のみでテストケースを作るようにする → 「ソフトウェアのバグの多くが1つまたは2つの因子の組み合わせによって発生しているという事実に基づいてテストケースを作成する方法」・状態遷移
2021年10月08日

Lattie

https://airbnb.io/lottie/images/logo.webp Lottie is a mobile library for Android and iOS that natively renders vector based animations and art in realtime with minimal code. Lottie loads and renders animations and vectors exported in the bodymovin JSON format. Bodymovin JSON can be created and exported from After Effects with bodymovin, Sketch with Lottie Sketch Export, and from Haiku. 引用: https://github.com/airbnb/lottie-ios Bodymovinとは, After Effectsのプラグインのことらしい. → https://github.com/airbnb/lottie-web
2021年10月08日

OCamlとTail Call

末尾再帰について一度整理しておく. → OCaml, Haskell, Scala など多くの関数型言語の処理系は末尾再帰を最適化. 末尾呼び出し 1 2 3 4 5 6 7 8 fn f(x: T){ifisTrue(hoge){// not 末尾呼び出し returng();// 末尾呼び出し }else{returnx*h();// not 末尾呼び出し }} 末尾再帰 1 2 3 4 5 6 7 8 fn f(x: T){ifisTrue(hoge){returnf(x);// 末尾再帰 }else{returnx*f(x);// not 末尾再帰 }} → 末尾再帰はコールスタックを食いつぶさないコールスタック通常のプログラムの実行モデルでは、関数を呼
2021年10月07日

紙 → 描き直しがきかない緊張感

https://xtrend.nikkei.com/atcl/contents/skillup/00013/00049/
2021年10月07日

若さが幸福を求めるなどというのは衰退である。

うるせえ三島由紀夫
2021年10月03日

レビューマトリクス

還元主義
2021年10月01日

アイデアの作り方 (ジェームズ・W・ヤング)

「アイデア作成の基礎となる一般原理」 → 1. アイデアとは既存の要素の新しい組み合わせ以外の何ものでもない。(p28) → 2. 既存の要素を新しい一つの組み合わせに導く才能は、事物の関連性を見つけ出す才能に依存するところが大きい (p29) 1について → 「アイデアは、製品と消費者に関する特殊知識と、人生とこの世の種々様々な出来事についての一般
2021年10月01日

中動態の世界

p32.「能動と受動の区別は、責任を負うために社会が必要とするものだったからだ。」 p41. 「中動態とはかつてのインド＝ヨーロッパ語にあまねく存在していた態である」 p34. ヴァンニエスト曰く、もともと「中動態 ─ 能動態」という枠組みがあって、後から「能動態 ─ 受動態」の構図が生まれた p50. 「ある研究者は、近代英文法の教科書はほとんどトラクス
2021年10月01日

ヴィヨンの妻

あとで描く「さっちゃん」は奇妙なまでにケロッとしていて、怖い https://www.toyo.ac.jp/uploaded/attachment/8349.pdf ・ヴィヨンが背景になっている
2021年10月01日

文学論

「文学辞典」みたいな感じだった p18. 「余は少時好んで漢籍を学びたり。これを学ぶ事短かきにも関らず、文学はかくの如き者なりとの定義を漠然と冥々裏に左国史漢より得たり。ひそかに思ふに英文学もまたかくの如きものなるべし、かくの如きものならば生涯を挙げてこれを学ぶもあながちに悔ゆることなかるべしと。余が単身流行せぎる英文学科に入り
2021年10月01日

「漱石を読み直す」

漱石を漱石の個人史を元に読み直す本 → 姓名に収斂するまとめ方が多かった → 皮肉にも「金之助」という名前であった彼は、「塩原家」と「夏目家」の間を商品のように往還した、だとか、漱石をカール・マルクスと紐付けてみたりだとか、籍のゆらぎを「双籍」と読んでみたり、漱石は徴兵を忌避するために北海道に「送籍」した、だとか。個人的には、
2021年10月01日

「寡黙な死骸みだらな弔い」

「洋菓子屋の午後」 → 廃冷蔵庫の中で窒息死した息子の過去を、ケーキ屋さんの中で回想するお話。 → 「空間性」が物語の焦点となっている。 → 悲哀な空間であるケーキ屋と、誇らしげに輝く完成された公園。回転ドアによって世界は完全に独立な二つに引き裂かれている。息子の入った冷蔵庫と、泣き崩れた店員のいるキッチンにも空間のモチーフが使わ
2021年10月01日

「村上さんのところ」

p25-26 質問「私はあまり怒ることがありません。友達に裏切られたり、恋人に浮気されたりしても怒れませんでした。昔から問題に巻き込まれやすく、仲裁に入らざるを得ないこともよくあるのですが、常に客観的に考えようとしてしまいます。こんな状況にななった場合、普通なら怒るのだろうとは思うのですが、怒ってもしょうがないか、と考えてしまいま
2021年10月01日

もものかんづめ

#読書録「メルヘン翁」という話がおもしろかった「祖父が死んだのは私が高二のときである。祖父は全くろくでもないジジィであった。」「そんな祖父のXデーは、５月の爽やかな土曜の夜に突然訪れた」「ジイさんが死んだよ、と私が行った途端、姉はバッタのように飛び起きた。「うそっ」と言いつつ、その目は期待と興奮で光り輝いていた。」考:
2021年10月01日

「批評理論と社会理論 1: アイステーシス」

第六章「自己表現と<癒し> ー <臨生>芸術への試論」(荒井裕樹) が面白かった → 安彦講平が精神科を中心に営む造形教室に通う「実月」という女性の絵・詩について実月 → p127. 「学校にも通えず、働いてもいない自分が、「このまま社会や周りの人々から取り残されてしまうのではないか」という強い不安を抱えており、何かを
2021年10月01日

「芸術起業論」

メモ: この本は読みにくかった。文章は平易で一つひとつの論理は明確なのに、本全体で見たときの論理の流れは矛盾をはらむような危うさをもっており、真意を掴むのが難しい。これは、私の個人的な解釈を踏まえた書評である。個人的にはこれは **「芸術作品の受容構造と、そこから導き出される芸術の本質」**に関する本なんだと思う。 p24-25. なぜ、
2021年10月01日

「隠喩・象徴とテクスト解釈」

・ソシュール → 言語記号は記号内容と記号表現というに側面の間に存する関係という観点から把握される → よって、言語は「現実に対して閉じた構造を持つ体系」であるとした。 → しかしその場合「象徴」や「隠喩」など、「前言語的領域」に対する考察は抜け落ちてしまうのではないか・オグデンとリチャーズ「意味の意味」 → ソシュールの論理を修正し
2021年10月01日

ゲンロン戦記

#読書録 p32. 「会社の本体はむしろ事務にあります。研究成果でも作品でもなんでもいいですが、「商品」は事務がしっかりしないと生み出せません。研究者やクリエイターだけが重要で事務はしょせん補助だというような発想は、結果的に停滞しっぺ返しを食らうことになります。」 p32-33. 「もっとも重要なのは、「なにか新しいことを実現するためには、一見
2021年10月01日

「文学をいかに語るか」

#読書録・大浦康介 → 「大まかな分類ながら、いわゆる解釈(エクセゲーシス)を基本とする批評(クリティック)と文学の形式を扱う詩学(ポエティック)というジェラール・ジュネットの区別を援用し、後者をやはりジュネットにならって、文学理論と同一視したい」 → ただし、ポエティックは<意味>を排除しない。 → 「文学が意味生産
2021年10月01日

「科学者池田菊苗」漱石・旨味・ドイツ

・特に後編は非常に面白かった・池田は語学に天賦の才があった → 英語もドイツ語も堪能であったらしい・「オストワルド法」で有名なオストワルド研究室に一年半留学 → 師であるオストワルドの影響がある → 日本は化学的に遅れていた一方、ドイツでは化学の応用による工学の向上が目まぐるしかった → 硫酸製造の新方法の開発に従事していたオストワル
2021年10月01日

UNIXという考え方

#読書録 p1. 「UNIXの創始者たちは、ある極端なコンセプトから始めた。ユーザーははじめからコンピュータを使えるとみなしたのだ。UNIXはユーザーが何をしているかをわかっているという前提に立っている。他のOS設計者が、初心者から専門家まで幅広いユーザーを受け入れようとして苦労しているとき、UNIXの設計者たちは、何をしてい
2021年10月01日

デザイン思考の作り方

・エスノグラフィー調査による課題の抽出 → 新しいシンクの開発をする際、実際に料理しているところを実際に頭上から定点的に的に撮影した → 考: 記録する際に、言語だけでなく写真や動画とかも使った方がいい・デザインシンキングの研究で知られるスタンフォード大学のd.schoolの教授たち → 「日本人を前にしてデザインシンキングを話すの
2021年10月01日

読書方針

・とにかく、自分の考えを書く → そのためには、考えながら読む → 時々、本を一旦閉じて思考に耽るフェーズが必要 → 速読してるとこのフェーズに移行するのが難しい → なぜ？・あと、疑問に思ったことも書いておく・本の要約はあまり意味を成さず、むしろ自分の意見が大事である → また、ありとあらゆる自分の意見と知識の相互的な連関に絡め取られる
2021年10月01日

スタートアップ大国イスラエルの秘密

・PHPやファイアーウォール、キネクトを作ったのはイスラエルのベンチャー・スタートアップの投資額は人口比で世界一位 → LINE元社長の山本アキラ氏「イスラエルは国自体がシリコンバレー。R&D国家のようなもの」 → 周りが敵国に囲まれているため・イスラエルは兵役義務がある → 退役後にも残る人脈とマネジメント力 → これが起業
2021年10月01日

寺田寅彦今を照らす科学者の言葉

元住吉駅まで散歩しに行ったときにアウトレット品として見つけたヤツ。・寺田寅彦 → <対象>の問題と深い関わりがありそう → 文学の<対象>観を科学に適応させているといえる → ex. 椿の落下運動の実験 (俳諧⇔物理学) 「最相葉月と池内了の対談」・池内了「科学の本質は問題を発見することである」＝多様なものの見方をす
2021年02月07日

LEAP MARKETING

#読書録中国ベンチャー加点型マーケティング → 日本みたいな減点型は「尖り」を削る → 加点型では、「尖り」を切り落とすことなく、その特徴を伸ばしていく → Start Small に通づる https://d2v9k5u4v94ulw.cloudfront.net/assets/images/1705898/original/xQCIInNhzgDTd8AUQX_SMSdKvqQYOinHLoUc0dKvd7WpGVrJo8X7I8DF35E6URxbZFM3AV67fYcUgXyVcWnqHiUKNx4be_sjEHVCr0kEGtUPiVk9y_LmjXbI7kq1Xusxol_4UGdh.gif?1499402994 ↓ https://d2v9k5u4v94ulw.cloudfront.net/assets/images/1705899/original/llzX-yvYUnz-_rNvTfExY8VNdteestIIrNVlV4ZwInGr4uJGjyMROkRNzjD8NJJfCvD8eiMF4VGk518rmIy35Y2hm6_lrST4TeOeJ1fkBb22vWfcNSr0_ao2FCRdTbnhGRL8YR9l.gif?1499402995 共創マーケティング →ユーザーと共に成長する / ユーザーとの交流が大事 → ex. シャオミ「オレンジフライデー」/ スタバ「マイスターバックスアイデア」 / 良品計画「モノづ
2020年09月11日

QRコードの奇跡

当初は、カンバン方式による頻繁な検品作業の負担をへらすために開発された。 → カンバン方式：必要な時に必要なものを必要な量だけ生産 → 高速で読み取れて、高精度コードが汚損しても読み取れるものになっている。 QRコードは、特許を取ってないので、様々なサービスが派生した。
2020年09月10日

詩の誕生

考えたこと芸術の「言語性」と「言語超越性」言語性(構造的美) → 構造性、思想、メタ性を持つ → 例えば; キュビズム / ダダイズム / 村上春樹言語超越性(感覚的美) → 理由はわからないけど、なんとなく良い、って感じ → マニエリスム / あらゆる芸術には、この要素がある(はず) 芸術に「詩」という言葉を用いる人がいるらしい (陶芸家が、陶芸を詩
2020年09月01日

空虚としての主題

「背景の仕組み」「モチーフの背景」は人々に気づかれにくい「時代性」を希求しようとする衝動を持つ →現代は普遍性の<中心>が失われている (例えば、ペストに対する恐怖だったり。) →それ故、現代ではそうした「現代が強いてくる不可避性への感受力」のようなものが欠けた作品が多い →これが、現代文学にて、「物語性」が氾濫す
2020年08月29日

時間術大全

ハイライト：毎日「最重要事項」を選ぶ何のために時間を作るのか？レーザー：「気を散らすもの」を撃退するメールやSNS、ニュース速報など、テクノロジーを調整して、時間をデザインする。チャージ：体を使って「脳を充電」する集中力を高め、大事なことのために時間を作るためには、脳にエネルギーが必要。「運動や食事、睡眠、静寂、親密な
2020年08月29日

イシューから始めよ

現状把握→イシューに分解(問題解決のための課題)→ 「解く」まえに「見極める」 = イシューの見極め →イシュー＝類似と対比によって考察を深めるとにかく無理矢理でも良いから仮説を作るイシューをサブイシューへと分解サブイシューに優先順位をつけるサブイシューそれぞれに優先順位をつける＝デカルトやん！「悩む」＝「答えが出ない」という
2020年08月29日

7つの習慣メモ

「変化」は自分の中からしか起こせない（インサイド・アウト）「インサイド・アウト」とは自分の内側（考え方、人格など）を変えることから、取り組み始めるアプローチのことです。良い夫婦関係を得たいなら、まず「良い伴侶」になる。子どもに良い子に育ってほしいなら、まず「良い親」になる。仕事で認められたければ、まず「良い従業員」にな
2020年08月29日

スターバックスはなぜ値下げもテレビCMもしないのに強いブランドでいられるのか？

ニーズではなく、ウォンツを満たすニーズは必要最低限のものだ。合理的で面白みがなく、すぐにコモディティー化してしまう。ニーズを満たすだけの事業やっているのは、平凡な企業ばかりに見える。ウォンツは感情的なものである。理想的でありワクワクするものだ。著者によると「ウォンツを満たそうとしているのは、真に注目に値する企業だけ」で
2020年08月29日

嫌われる勇気メモ

原因論から目的論へフロイト心理学のような原因論では、過去の災害や他人の言動などによる経験がトラウマとなって現在苦しむと考えます。それに対してアドラー心理学の目的録では、今の目的にかなう経験を過去の記憶から探して、トラウマにしていると考えます。他人との比較ではなく、自分の理想と比較して向上することにより、他人は仲間となっ
2020年08月29日

思考は一瞬メモ

第一原則：「無原則」→思考に唯一絶対のものはないデカルト真理を見つけるためには思考の対象を・これ以上は分解できないまで、分解し <第2原則> ・もっとも単純なものから初めて、複雑なものへと、そのバラバラの少部分を組み立て直す <第三原則> →おそらく、ここでいう「真理」は神格化されたもの →真理なんて検証
2020年08月29日

超予測力

・エドワード・ローレンツ → バタフライ効果 = 気象のような非線形システムにおいては、当初の条件にわずかな変化を加えると、その影響はとほうもない規模に膨れ上がる・ブライヤースコア「平均とは厄介なものである。統計学に関する定番ジョークに、統計学者は足をオーブンに、頭を冷蔵庫に入れて眠るというのがある。そうすると平均が心地よい温
2023年03月07日

【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models

この度，SONY様のnnablaチャンネルにH3の解説動画を寄稿しました．本記事ではなく動画の視聴の方を推奨します．概要 ICLR23 状態空間モデル(state-space model; SSM)は様々なモダリティにおいて有用性が検証されてきたが，未だ言語系においては確認できていない．また，SSMは $\mathcal{O}(L)$であるにも拘ら
2023年02月12日

【論文メモ】LoRA: Low-Rank Adaptation of Large Language Models

ICLR22 大規模モデルを高速かつ低消費メモリでfine-tuningする新たな手法 HypernetworksのようにTransformerの各層に学習可能なパラメタを挿入する (Adaptation層) しかし，重みを固定するにしてもAdaptation層を学習させるためにはGPUに載せないと意味ないので，結局時間が掛かってしまう
0001年01月01日
0001年01月01日
0001年01月01日

TextCaps #dataset #機械学習 #todo [text captioning]用のデータセット [text captioning]: OCR的側面を持ったImage Captioning 👇COCO+既存モデルだとこのタスクは解けない👇 評価はどうするの問題 We report BLEU, METEOR, ROUGE-L, SPICE and CIDEr metrics for each submissions using coco-captions package. The leaderboard scores are sorted based on CIDEr and final ranking will be provided after the challenge based on a mixture of human evaluations and CIDEr. 引用: https://textvqa.org/textcaps/challenge/ どうやら, n-gram評価系列ではないSPICE等も評価に使うらしい [SPICE:

MLP-Mixer

関連記事