機械学習
【NeRF】動画から点群・メッシュ・任意視点動画を生成してみる
· ☕ 4 min read
NeRFを使えば,点群・メッシュ・任意視点動画が作れるのでやってみた 今回は愛飲するRedBullを被写体にしてみるヨ! 任意視点動画 (GIF版) 任意視点動画 (動画版) Your browser does not support the video tag. 点群 NeRFとnerfstudioについて簡潔に説明 ボリュームレンダリング ある点 $x$と方向 $d$を入力として $(c,\sigma)$を出力 ...


EMNLP 2023 参加録
· ☕ 1 min read
EMNLP2023に行ってきた ポスター発表の画 面白かった発表 (マイベスト) Accelerating Toeplitz Neural Network with Constant-time Inference Complexity 会場で唯一見つけたSSM論文 (e.g., Hungry Hungry Hippos: Towards Language Modeling with State Space Models) Toeplitz Neural NetworksをSSMに変換し,閉形式で記述→DFTで効率的に解くというめちゃくちゃ胸躍る研究. 著者から直接聞いた話によると,最近Albert Guが出したMambaよりかなり ...


bfloatとは何か
· ☕ 1 min read
double vs fp32 vs fp16 vs bfp16 double (64bit) 1/11/52 = 64 fp32 -> float (32bit) 1 / 8 / 23 = 32 fp16 -> float (16bit) 1 / 5 / 10 = 16 IEEEで規格化 bfloat16 1 / 8 / 7 = 16 指数部をfp32に合わせている 仮数部は実質的な有効数字 (粒度) を決めて,指数部は値のrangeを決めるので,仮数部を減らして指数部を増やすことで,取りうる値のrangeを最大化してあげる (仮数部) x 2^(指数部) 2^() ...


【LangChain】Agentの仕組みを理解して, 任意のLLMを使用する
· ☕ 3 min read
OpenAIの提供するGPT-3には何種類かある text-davinci-003 / text-curie-001 / text-babbage-001 / text-ada-001 特にLangChainでは最も性能の良いtext-davinci-003が使用されている. だが,APIは金が掛かるのでなるだけフリーのLLMが使いたい → transformers-openai-api等で偽サーバを建てて,APIのオリジンをすり替えると任意のL ...

Distance CorrelationとPartial Distance Correlation について
· ☕ 4 min read
概要 pearsonの相関係数は線形な関係しか捉えることが出来ない. そこで, 点同士の距離を用いたDistance Correlationという相関係数が提案された. さらに, Distance Correlationを拡張し, 内積の期待値が共分散の二乗となるようなヒルベルト空間を定義したPartial Distance Correlationが提案されている. ...


【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers
· ☕ 8 min read
はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある 残差接続により, より深い層数のNNを実現できるようになった 残差接続に対する解釈の矛盾 昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっている しかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ ...


日本語版Image Captioningの学習・推論コードを提供する
· ☕ 1 min read
ひょんなことから最近Image Captioning(画像キャプション生成)を触っている だが, ググってもググっても日本語でImage Captioningしてる人があまりに居ない… コードを検索してもヒットしたのはこの子だけ…🤔 (しかもChainer …) https://github.com/yuyay/chainer_nic 日本語での画像キャプション生成界隈はプレイヤ ...


【論文メモ】Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective
· ☕ 4 min read
はじめに CVPR22 決定境界を描画し, 再現性と汎化性について定量的に考察した論文 決定境界の描画 (領域の決定) 如何に決定境界を描画するかが重要になってくる その上でまず, データ多様体 $\mathcal{M}$の近傍(on-manifold)を取るのか, $\mathcal{M}$から離れた領域(off-manifold)を取るのかを考 ...


Stochastic Gradient Langevin Dynamicsを理解する
· ☕ 4 min read
はじめに MCMCの一種 目標: ある分布 $\pi(x)$からのサンプリングを行いたい Metropolis-Hastingsアルゴリズム (MH) Hamiltonian Monte Carlo (HMC) Langevin Dynamics (Metropolis-adjusted Langevin Algorithm) Stochastic Gradient Langevin Dynamics (SGLD) の順に見ていくと理解しやすい Metropolis-Hastings Metropolis-Hastingsについては既知のもとする 提案分布 $q(z)$を元に判定関数を用いて受容・棄却を行うMCMC cf. ...

Energy Based Model
· ☕ 3 min read
Energy Based Model 生成モデルによく用いられる 拡散モデルとも関係が深い 分類回帰問題についてはYour classifier is secretly an energy based model and you should treat it like oneを参照 GANやVAE同様, データ $x$は何らかの高次元確率分布 $p(x)$からサンプリングされたものと仮定する EBMでは以下のように確率分布 $p(x)$を仮定し, $E_{\theta}(\boldsym ...


Peter Anderson
· ☕ 1 min read
すげえ人 SPICE SPICE: Semantic Propositional Image Caption Evaluation REVERIE REVERIE - Remote Embodied Visual Referring Expression in Real Indoor Environments Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Sim-to-Real Transfer for Vision-and-Language Navigation など, めちゃくちゃよく見る論文の著者 今はGoogleにいるらしい ...

日本語キャプションデータセット
· ☕ 1 min read
STAIR MSCOCOにキャプションを付与 全部で820,310件のキャプション http://captions.stair.center/ Yuya Yoshikawa, Yutaro Shigeto, and Akikazu Takeuchi, “STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset”, Annual Meeting of the Association for Computational Linguistics (ACL), Short Paper, 2017. YJ Captions 26k Dataset こちらもMSCOCOにキャプションを付与したもので, ACL2016 キャプション数がSTAIRの1/6程度 https://github.com/yahoojapan/YJCaptions Takashi Miyazaki and Nobuyuki Shimizu. 2016. Cross-Lingual Image Caption Generation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1780 ...

RPN
· ☕ 1 min read
Resion Proposal Network 背景なのか, 物体が写っているのかだけを識別するサブモジュール Faster-RCNNにおいては, ①RPNで領域を絞ってから, ②それぞれ個々の物体についてラベルを絞っていく Faster-RCNNの学習では, 「RPNの重み更新→モデル全体の重み更新」を繰り返して学習 RPNでは, Anchor boxが背景か物体か / 物体ならばGTとの ...