論文
【NeRF】動画から点群・メッシュ・任意視点動画を生成してみる
· ☕ 4 min read
NeRFを使えば,点群・メッシュ・任意視点動画が作れるのでやってみた 今回は愛飲するRedBullを被写体にしてみるヨ! 任意視点動画 (GIF版) 任意視点動画 (動画版) Your browser does not support the video tag. 点群 NeRFとnerfstudioについて簡潔に説明 ボリュームレンダリング ある点 $x$と方向 $d$を入力として $(c,\sigma)$を出力 ...


EMNLP 2023 参加録
· ☕ 1 min read
EMNLP2023に行ってきた ポスター発表の画 面白かった発表 (マイベスト) Accelerating Toeplitz Neural Network with Constant-time Inference Complexity 会場で唯一見つけたSSM論文 (e.g., Hungry Hungry Hippos: Towards Language Modeling with State Space Models) Toeplitz Neural NetworksをSSMに変換し,閉形式で記述→DFTで効率的に解くというめちゃくちゃ胸躍る研究. 著者から直接聞いた話によると,最近Albert Guが出したMambaよりかなり ...


【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models
· ☕ 6 min read
この度,SONY様のnnablaチャンネルにH3の解説動画を寄稿しました. 本記事ではなく動画の視聴の方を推奨します. 概要 ICLR23 状態空間モデル(state-space model; SSM)は様々なモダリティにおいて有用性が検証されてきたが,未だ言語系においては確認できていない. また,SSMは $\mathcal{O}(L)$であるにも拘ら ...


【論文メモ】LoRA: Low-Rank Adaptation of Large Language Models
· ☕ 1 min read
ICLR22 大規模モデルを高速かつ低消費メモリでfine-tuningする新たな手法 HypernetworksのようにTransformerの各層に学習可能なパラメタを挿入する (Adaptation層) しかし,重みを固定するにしてもAdaptation層を学習させるためにはGPUに載せないと意味ないので,結局時間が掛かってしまう ...


【論文メモ】On the Versatile Uses of Partial Distance Correlation in Deep Learning
· ☕ 3 min read
はじめに ECCV22のbest paper https://twitter.com/eccvconf/status/1585560616688881664 #ECCV2022 Paper Awards pic.twitter.com/u9awGVCgSr — European Conference on Computer Vision (ECCV) (@eccvconf) October 27, 2022 概要 二つのモデルの挙動を比較することは極めて重要 しかし, それぞれが異なるアーキテクチャにおけるモデルの比較方法は依然として研究が不十分. そこで, この論文では(Partial) Distance Correlationを機械学習に応用する手法を提案. (Partial) Distance Correlation ...


【論文メモ】Few-shot Relational Reasoning via Connection Subgraph Pretraining
· ☕ 4 min read
はじめに NeurIPS22 Few-shotにおける knowledge graph completion task を行う 上図のように, Background KG (knowledge graph)とsupport setが与えられた状態で, Query setのrelationを推論するタスク Connection Subgraph Reasoner (CSR)を提案 Few-shot KG Completion KGは $\mathcal{G} = (\mathcal{E}, \mathcal{R}, \mathcal{T}) $で表される ここで, $\mathcal{E}, \mathcal{R}$はそれぞれentityとrelationで, $\mathcal{T ...


【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers
· ☕ 8 min read
はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある 残差接続により, より深い層数のNNを実現できるようになった 残差接続に対する解釈の矛盾 昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっている しかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ ...


【論文メモ】Lifting the Curse of Multilinguality by Pre-training Modular Transformers
· ☕ 1 min read
NACCL22 多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在する この「多言語の呪い」を対処するモデルとしてX-MODを提案 概略 言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせる それ故, 拡張は容易で, 学習・推 ...


【論文メモ】SimCSE
· ☕ 1 min read
ENMLP21 Supervised SimCSE 含意関係にある文を正例として対照学習 NLIデータセット Unsupervised SimCSE 同じ文を二回埋め込んで対照学習 dropoutの影響で微かに異なる二つのベクトルに対して対照学習 引用: https://www.slideshare.net/DeepLearningJP2016/dlsimcse-simple-contrastive-learning-of-sentence-embeddings-emnlp-2021 ...


【論文メモ】Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective
· ☕ 4 min read
はじめに CVPR22 決定境界を描画し, 再現性と汎化性について定量的に考察した論文 決定境界の描画 (領域の決定) 如何に決定境界を描画するかが重要になってくる その上でまず, データ多様体 $\mathcal{M}$の近傍(on-manifold)を取るのか, $\mathcal{M}$から離れた領域(off-manifold)を取るのかを考 ...


【論文メモ】Test-Time Training with Self-Supervision for Generalization under Distribution Shifts
· ☕ 2 min read
PMLR20 trainとtestで分布が違う場合の再学習手法TTT(Test-Time Training)を提案 まずは普通に学習 次にモデルを前半(A)と後半(B)に分けて, 元のA + 新しいB’ のモデルで自己教師あり学習を行う headを取っ替えるイメージ (B→B') このとき, testサンプルを使用して自己教師あり学習を行う ...

【論文メモ】Energy-Based Learning for Scene Graph Generation
· ☕ 3 min read
はじめに Energy Based Modelを用いて画像からscene graphを生成する手法(フレームワーク)を提案 既存手法は次のようにクロスエントロピーでscene graphを生成する $$\log p(SG|I) = \sum_{i \in O} \log p(o_i| I) + \sum_{j \in R} \log p(r_j | I).$$ このとき, object $O$とrelation $R$が互いに独立に計算されている ここが問題で, 本来なら互いに弱い依存性があるはず し ...


【論文メモ】Your classifier is secretly an energy based model and you should treat it like one
· ☕ 1 min read
分類問題について, 生成モデルで用いられるEnergy Based Modelに基づいた学習手法を提案 一般的な学習 あるNNを $f_\theta(x)$とすると, 出力の $y$番目を $f_\theta(x)[y\rbrack$として, softmaxは以下のように表される $$p_{\theta}(y|{\bf x}) = \frac{\exp{\left(f_{\theta}({\bf x})[y\rbrack \right)} } { \sum_{y^{\prime}}\exp{\left(f_{\theta}({\bf x})[y^{\prime}\rbrack \right)} }$$ ここで, Energy Based Modelでは $$p_{\theta}(\boldsymbol{x},y) = \frac{\textrm{exp}(-E_{\theta}(\boldsymbol{x},y))}{Z_{\theta}}$$ と定義される ...