論文 on 行李の底に収めたり[YuWd]

論文 on 行李の底に収めたり[YuWd] https://yuiga.dev/blog/en/tags/%E8%AB%96%E6%96%87/ Recent content in 論文 on 行李の底に収めたり[YuWd] Hugo -- gohugo.io en ©2024, All Rights Reserved Thu, 18 Jan 2024 02:35:54 +0900 【NeRF】動画から点群・メッシュ・任意視点動画を生成してみる https://yuiga.dev/blog/en/ja/posts/nerf%E5%8B%95%E7%94%BB%E3%81%8B%E3%82%89%E7%82%B9%E7%BE%A4%E3%83%A1%E3%83%83%E3%82%B7%E3%83%A5%E4%BB%BB%E6%84%8F%E8%A6%96%E7%82%B9%E5%8B%95%E7%94%BB%E3%82%92%E7%94%9F%E6%88%90%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B/ Thu, 18 Jan 2024 02:35:54 +0900 Thu, 18 Jan 2024 02:35:54 +0900 https://yuiga.dev/blog/en/ja/posts/nerf%E5%8B%95%E7%94%BB%E3%81%8B%E3%82%89%E7%82%B9%E7%BE%A4%E3%83%A1%E3%83%83%E3%82%B7%E3%83%A5%E4%BB%BB%E6%84%8F%E8%A6%96%E7%82%B9%E5%8B%95%E7%94%BB%E3%82%92%E7%94%9F%E6%88%90%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B/ NeRFを使えば，点群・メッシュ・任意視点動画が作れるのでやってみた今回は愛飲するRedBullを被写体にしてみるヨ！任意視点動画 (GIF版) 任意視点動画 (動画版) Your browser does not support the video tag. 点群 NeRFとnerfstudioについて簡潔に説明ボリュームレンダリングある点 $x$と方向 $d$を入力として $(c,\sigma)$を出力 YuWd (Yuiga Wada) featured image 論文機械学習 PyTorch CV EMNLP 2023 参加録 https://yuiga.dev/blog/en/ja/posts/emnlp_2023_%E5%8F%82%E5%8A%A0%E9%8C%B2/ Mon, 11 Dec 2023 03:04:16 +0900 Mon, 11 Dec 2023 03:04:16 +0900 https://yuiga.dev/blog/en/ja/posts/emnlp_2023_%E5%8F%82%E5%8A%A0%E9%8C%B2/ EMNLP2023に行ってきたポスター発表の画面白かった発表 (マイベスト) Accelerating Toeplitz Neural Network with Constant-time Inference Complexity 会場で唯一見つけたSSM論文 (e.g., Hungry Hungry Hippos: Towards Language Modeling with State Space Models) Toeplitz Neural NetworksをSSMに変換し，閉形式で記述→DFTで効率的に解くというめちゃくちゃ胸躍る研究．著者から直接聞いた話によると，最近Albert Guが出したMambaよりかなり YuWd (Yuiga Wada) featured image 機械学習論文【論文メモ】Hungry Hungry Hippos: Towards Language Modeling with State Space Models https://yuiga.dev/blog/en/ja/posts/hungry_hungry_hippos_towards_language_modeling_with_state_space_models/ Tue, 07 Mar 2023 18:44:30 +0900 Tue, 07 Mar 2023 18:44:30 +0900 https://yuiga.dev/blog/en/ja/posts/hungry_hungry_hippos_towards_language_modeling_with_state_space_models/ この度，SONY様のnnablaチャンネルにH3の解説動画を寄稿しました．本記事ではなく動画の視聴の方を推奨します．概要 ICLR23 状態空間モデル(state-space model; SSM)は様々なモダリティにおいて有用性が検証されてきたが，未だ言語系においては確認できていない．また，SSMは $\mathcal{O}(L)$であるにも拘ら YuWd (Yuiga Wada) featured image 論文状態空間モデル【論文メモ】LoRA: Low-Rank Adaptation of Large Language Models https://yuiga.dev/blog/en/ja/posts/lora_low-rank_adaptation_of_large_language_models/ Sun, 12 Feb 2023 21:20:55 +0900 Sun, 12 Feb 2023 21:20:55 +0900 https://yuiga.dev/blog/en/ja/posts/lora_low-rank_adaptation_of_large_language_models/ ICLR22 大規模モデルを高速かつ低消費メモリでfine-tuningする新たな手法 HypernetworksのようにTransformerの各層に学習可能なパラメタを挿入する (Adaptation層) しかし，重みを固定するにしてもAdaptation層を学習させるためにはGPUに載せないと意味ないので，結局時間が掛かってしまう YuWd (Yuiga Wada) featured image 論文【論文メモ】On the Versatile Uses of Partial Distance Correlation in Deep Learning https://yuiga.dev/blog/en/ja/posts/on_the_versatile_uses_of_partial_distance_correlation_in_deep_learning/ Fri, 16 Dec 2022 19:07:36 +0900 Fri, 16 Dec 2022 19:07:36 +0900 https://yuiga.dev/blog/en/ja/posts/on_the_versatile_uses_of_partial_distance_correlation_in_deep_learning/ はじめに ECCV22のbest paper https://twitter.com/eccvconf/status/1585560616688881664 #ECCV2022 Paper Awards pic.twitter.com/u9awGVCgSr — European Conference on Computer Vision (ECCV) (@eccvconf) October 27, 2022 概要二つのモデルの挙動を比較することは極めて重要しかし, それぞれが異なるアーキテクチャにおけるモデルの比較方法は依然として研究が不十分. そこで, この論文では(Partial) Distance Correlationを機械学習に応用する手法を提案. (Partial) Distance Correlation YuWd (Yuiga Wada) featured image 論文【論文メモ】Few-shot Relational Reasoning via Connection Subgraph Pretraining https://yuiga.dev/blog/en/ja/posts/few-shot_relational_reasoning_via_connection_subgraph_pretraining/ Wed, 16 Nov 2022 20:09:23 +0900 Wed, 16 Nov 2022 20:09:23 +0900 https://yuiga.dev/blog/en/ja/posts/few-shot_relational_reasoning_via_connection_subgraph_pretraining/ はじめに NeurIPS22 Few-shotにおける knowledge graph completion task を行う上図のように, Background KG (knowledge graph)とsupport setが与えられた状態で, Query setのrelationを推論するタスク Connection Subgraph Reasoner (CSR)を提案 Few-shot KG Completion KGは $\mathcal{G} = (\mathcal{E}, \mathcal{R}, \mathcal{T}) $で表されるここで, $\mathcal{E}, \mathcal{R}$はそれぞれentityとrelationで, $\mathcal{T YuWd (Yuiga Wada) featured image 論文【論文メモ】Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers https://yuiga.dev/blog/en/ja/posts/deep_learning_without_shortcuts_shaping_the_kernel_with_tailored_rectifiers/ Wed, 02 Nov 2022 10:16:11 +0900 Wed, 02 Nov 2022 10:16:11 +0900 https://yuiga.dev/blog/en/ja/posts/deep_learning_without_shortcuts_shaping_the_kernel_with_tailored_rectifiers/ はじめに ICLR22 [paper] 深層学習において, 残差接続は不可欠な存在となりつつある残差接続により, より深い層数のNNを実現できるようになった残差接続に対する解釈の矛盾昨今の研究により残差接続は比較的浅い層をアンサンブルするような効果があるとの見方が強まっているしかし, 「深層」学習という名が体を表す通り, 一般には「層を増やす」ことがモデ YuWd (Yuiga Wada) featured image 論文機械学習数学【論文メモ】Lifting the Curse of Multilinguality by Pre-training Modular Transformers https://yuiga.dev/blog/en/ja/posts/lifting_the_curse_of_multilinguality_by_pre-training_modular_transformers/ Wed, 19 Oct 2022 19:16:15 +0900 Wed, 19 Oct 2022 19:16:15 +0900 https://yuiga.dev/blog/en/ja/posts/lifting_the_curse_of_multilinguality_by_pre-training_modular_transformers/ NACCL22 多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在するこの「多言語の呪い」を対処するモデルとしてX-MODを提案概略言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせるそれ故, 拡張は容易で, 学習・推 YuWd (Yuiga Wada) featured image 論文 NLP 【論文メモ】SimCSE https://yuiga.dev/blog/en/ja/posts/simcse/ Tue, 18 Oct 2022 19:34:11 +0900 Tue, 18 Oct 2022 19:34:11 +0900 https://yuiga.dev/blog/en/ja/posts/simcse/ ENMLP21 Supervised SimCSE 含意関係にある文を正例として対照学習 NLIデータセット Unsupervised SimCSE 同じ文を二回埋め込んで対照学習 dropoutの影響で微かに異なる二つのベクトルに対して対照学習引用: https://www.slideshare.net/DeepLearningJP2016/dlsimcse-simple-contrastive-learning-of-sentence-embeddings-emnlp-2021 YuWd (Yuiga Wada) featured image 論文自己教師あり学習 NLP 【論文メモ】Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective https://yuiga.dev/blog/en/ja/posts/can_neural_nets_learn_the_same_model_twice_investigating_reproducibility_and_double_descent_from_the_decision_boundary_perspective/ Sat, 24 Sep 2022 02:31:18 +0900 Sat, 24 Sep 2022 02:31:18 +0900 https://yuiga.dev/blog/en/ja/posts/can_neural_nets_learn_the_same_model_twice_investigating_reproducibility_and_double_descent_from_the_decision_boundary_perspective/ はじめに CVPR22 決定境界を描画し, 再現性と汎化性について定量的に考察した論文決定境界の描画 (領域の決定) 如何に決定境界を描画するかが重要になってくるその上でまず, データ多様体 $\mathcal{M}$の近傍(on-manifold)を取るのか, $\mathcal{M}$から離れた領域(off-manifold)を取るのかを考 YuWd (Yuiga Wada) featured image 論文 CV 機械学習【論文メモ】Test-Time Training with Self-Supervision for Generalization under Distribution Shifts https://yuiga.dev/blog/en/ja/posts/test-time_training_with_self-supervision_for_generalization_under_distribution_shifts/ Mon, 19 Sep 2022 04:57:03 +0900 Mon, 19 Sep 2022 04:57:03 +0900 https://yuiga.dev/blog/en/ja/posts/test-time_training_with_self-supervision_for_generalization_under_distribution_shifts/ PMLR20 trainとtestで分布が違う場合の再学習手法TTT(Test-Time Training)を提案まずは普通に学習次にモデルを前半(A)と後半(B)に分けて, 元のA + 新しいB’ のモデルで自己教師あり学習を行う headを取っ替えるイメージ (B→B') このとき, testサンプルを使用して自己教師あり学習を行う YuWd (Yuiga Wada) 論文【論文メモ】Energy-Based Learning for Scene Graph Generation https://yuiga.dev/blog/en/ja/posts/energy-based_learning_for_scene_graph_generation/ Mon, 19 Sep 2022 00:57:50 +0900 Mon, 19 Sep 2022 00:57:50 +0900 https://yuiga.dev/blog/en/ja/posts/energy-based_learning_for_scene_graph_generation/ はじめに Energy Based Modelを用いて画像からscene graphを生成する手法(フレームワーク)を提案既存手法は次のようにクロスエントロピーでscene graphを生成する $$\log p(SG|I) = \sum_{i \in O} \log p(o_i| I) + \sum_{j \in R} \log p(r_j | I).$$ このとき, object $O$とrelation $R$が互いに独立に計算されているここが問題で, 本来なら互いに弱い依存性があるはずし YuWd (Yuiga Wada) featured image 論文 Graph 【論文メモ】Your classifier is secretly an energy based model and you should treat it like one https://yuiga.dev/blog/en/ja/posts/your_classifier_is_secretly_an_energy_based_model_and_you_should_treat_it_like_one/ Sun, 28 Aug 2022 00:57:38 +0900 Sun, 28 Aug 2022 00:57:38 +0900 https://yuiga.dev/blog/en/ja/posts/your_classifier_is_secretly_an_energy_based_model_and_you_should_treat_it_like_one/ 分類問題について, 生成モデルで用いられるEnergy Based Modelに基づいた学習手法を提案一般的な学習あるNNを $f_\theta(x)$とすると, 出力の $y$番目を $f_\theta(x)[y\rbrack$として, softmaxは以下のように表される $$p_{\theta}(y|{\bf x}) = \frac{\exp{\left(f_{\theta}({\bf x})[y\rbrack \right)} } { \sum_{y^{\prime}}\exp{\left(f_{\theta}({\bf x})[y^{\prime}\rbrack \right)} }$$ ここで, Energy Based Modelでは $$p_{\theta}(\boldsymbol{x},y) = \frac{\textrm{exp}(-E_{\theta}(\boldsymbol{x},y))}{Z_{\theta}}$$ と定義される YuWd (Yuiga Wada) featured image 論文【論文メモ】MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering https://yuiga.dev/blog/en/ja/posts/mukea_multimodal_knowledge_extraction_and_accumulation_for_knowledge-based_visual_question_answering/ Wed, 24 Aug 2022 04:13:02 +0900 Wed, 24 Aug 2022 04:13:02 +0900 https://yuiga.dev/blog/en/ja/posts/mukea_multimodal_knowledge_extraction_and_accumulation_for_knowledge-based_visual_question_answering/ CVPR22 タスク: KB-VQA 質問画像に含まれていない知識を要する質問に回答するタスク例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない新規性知識グラフの構築は行わない scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用い YuWd (Yuiga Wada) featured image 論文 Vision-and-Language 【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval https://yuiga.dev/blog/en/ja/posts/generating_semantically_precise_scene_graphs_from_textual_descriptions_for_improved_image_retrieval/ Wed, 24 Aug 2022 02:21:50 +0900 Wed, 24 Aug 2022 02:21:50 +0900 https://yuiga.dev/blog/en/ja/posts/generating_semantically_precise_scene_graphs_from_textual_descriptions_for_improved_image_retrieval/ Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正代名詞の解釈複数名詞への対応 → ノー YuWd (Yuiga Wada) 論文 NLP Vision-and-Language Graph 【論文メモ】Neural Networks and the Chomsky Hierarchy https://yuiga.dev/blog/en/ja/posts/neural_networks_and_the_chomsky_hierarchy/ Wed, 17 Aug 2022 22:33:24 +0900 Wed, 17 Aug 2022 22:33:24 +0900 https://yuiga.dev/blog/en/ja/posts/neural_networks_and_the_chomsky_hierarchy/ Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した各階層はオートマトンの性質と紐付いている RNNやTransformerは無限ステップにおいてチューリング完全であることが理論的に証明されているが, 有限ステップにおいて各モデルがどのクラスに属するかの研究は未だ発展中例えば, Transformer YuWd (Yuiga Wada) featured image 論文【論文メモ】Graphormer: Do Transformers Really Perform Bad for Graph Representation? https://yuiga.dev/blog/en/ja/posts/graphormer_do_transformers_really_perform_bad_for_graph_representation/ Tue, 16 Aug 2022 20:46:37 +0900 Tue, 16 Aug 2022 20:46:37 +0900 https://yuiga.dev/blog/en/ja/posts/graphormer_do_transformers_really_perform_bad_for_graph_representation/ はじめに Transformerをベースとしたグラフ学習手法 (NeurIPS 2021) 構成要素は三つ Centrality Encoding Spatial Encoding Edge Encoding (in the Attention) 特筆すべき点として, この手法はGINやGCN, それからGraphSAGEといったGNN手法を一般化したものとなっているらしい Do Transformers Really Perform Bad for Graph Representation? 論文メモ構成要素1. Centrality Encoding モチベーション Node Centrality, つまりノードがどれほど別のノードとつながって YuWd (Yuiga Wada) featured image 論文 Graph 【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation https://yuiga.dev/blog/en/ja/posts/spice_semantic_propositional_image_caption_evaluation/ Tue, 16 Aug 2022 20:46:30 +0900 Tue, 16 Aug 2022 20:46:30 +0900 https://yuiga.dev/blog/en/ja/posts/spice_semantic_propositional_image_caption_evaluation/ 評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えないそこで, scene graphを用いた評価指標SPICEを提案実際, 画像キャプショニングモデルではよく見かける指標となってきた流れ ① 複数キャプションからscene graphを生成 scene graph YuWd (Yuiga Wada) featured image 論文 NLP Vision-and-Language Graph 【論文メモ】OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation https://yuiga.dev/blog/en/ja/posts/otter_data_efficient_language-supervised_zero-shot_recognition_with_optimal_transport_distillation/ Wed, 10 Aug 2022 18:01:53 +0900 Wed, 10 Aug 2022 18:01:53 +0900 https://yuiga.dev/blog/en/ja/posts/otter_data_efficient_language-supervised_zero-shot_recognition_with_optimal_transport_distillation/ モチベーション CLIPは単位行列を教師として学習する → バッチ内の負例同士にゆるい相関があった場合, 負例を全て0として学習するのは違うよね → 最適輸送問題を解いたものを教師として活用しよう OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition) を提案 Prototypical Contrastive Learning of Unsupervised Representationsと若干同じ感じ loss InfoNCEを拡張して $$\mathcal{L}_v = -\frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N [\alpha I_{ij} + (1-\alpha) M^{v}_{ij}\rbrack \log p_v(\mathbf{z}_i^v, \mathbf{z}_j^t;\tau)$$ とするイ YuWd (Yuiga Wada) featured image 論文 Vision-and-Language 【論文メモ】TokenGT: Pure Transformers are Powerful Graph Learners https://yuiga.dev/blog/en/ja/posts/tokengt_pure_transformers_are_powerful_graph_learners/ Tue, 02 Aug 2022 18:58:30 +0900 Tue, 02 Aug 2022 18:58:30 +0900 https://yuiga.dev/blog/en/ja/posts/tokengt_pure_transformers_are_powerful_graph_learners/ グラフをそのままTransformerにブチこむ手法 GNNより帰納バイアスが少ないが, GNNよりも良い精度を達成入力についてまず, ノードとエッジをそれぞれ独立なものとして捉え, それぞれを同等にトークン $X$とするそのトークンに, ノードなのかエッジなのかを判別するType Identifiersをconcatして入力トーク YuWd (Yuiga Wada) featured image 論文 Graph 【論文メモ】Why do tree-based models still outperform deep learning on tabular data? https://yuiga.dev/blog/en/ja/posts/why_do_tree-based_models_still_outperform_deep_learning_on_tabular_data/ Mon, 01 Aug 2022 20:18:34 +0900 Mon, 01 Aug 2022 20:18:34 +0900 https://yuiga.dev/blog/en/ja/posts/why_do_tree-based_models_still_outperform_deep_learning_on_tabular_data/ なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文１つ目: NNは高周波数成分の学習に弱いなので, 飛び値的なデータに弱い一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い詳しくは拙作→決定木をフルスクラッチで書けるようになろう (CART) NeRFやPerceiver: YuWd (Yuiga Wada) featured image 論文【論文メモ】Deformable Attention Transformer https://yuiga.dev/blog/en/ja/posts/deformable_attention_transformer/ Mon, 01 Aug 2022 20:18:22 +0900 Mon, 01 Aug 2022 20:18:22 +0900 https://yuiga.dev/blog/en/ja/posts/deformable_attention_transformer/ 詳しくは輪講スライド Deformable Conv のDeformと同じ grid上のpositionに対して, offset分positionをずらしてAttention 正式なoffsetはbilinear補完によって求めるオブジェクトごとに受容野を歪めることができる YuWd (Yuiga Wada) featured image 論文【論文メモ】Prototypical Contrastive Learning of Unsupervised Representations https://yuiga.dev/blog/en/ja/posts/prototypical_contrastive_learning_of_unsupervised_representations/ Mon, 01 Aug 2022 20:17:52 +0900 Mon, 01 Aug 2022 20:17:52 +0900 https://yuiga.dev/blog/en/ja/posts/prototypical_contrastive_learning_of_unsupervised_representations/ 輪講スライド背景 Instance-wiseな教師なし表現学習 : 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 MoCo SimCLR SimSiam など Instance-wiseな⼿法における２つの問題点 1- 低次元の特徴だけで識別できるため, 識別はNNにとって簡単なタスク → **⾼密度な情報をエンコードしているとは⾔い難い ** 2- ペア間 YuWd (Yuiga Wada) featured image 論文対照学習自己教師あり学習 EMアルゴリズム【論文メモ】GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training https://yuiga.dev/blog/en/ja/posts/gsam_-_surrogate_gap_minimization_improves_sharpness-aware_training/ Mon, 01 Aug 2022 20:16:49 +0900 Mon, 01 Aug 2022 20:16:49 +0900 https://yuiga.dev/blog/en/ja/posts/gsam_-_surrogate_gap_minimization_improves_sharpness-aware_training/ はじめに SAMの改良 (SAM : Sharpness-Aware Minimization) Surrogate Gap Minimization Improves Sharpness-Aware Training 論文メモ問題提起 SAMの計算式では, 本当にフラットな損失点を見つけているとは言えない $$L_\mathcal{S}^\text{SAM}(\mathbf{w}) \triangleq \max_{|\mathbf{\epsilon}|_p\leq\rho} L_\mathcal{S}(\mathbf{w}+\mathbf{\epsilon})$$ 例えば下の図では, 近傍 $f_p$について最適化すると, SAMの場合, 青に収束してしまう危険がある本当に見るべきは以下に定義するsurrogate gap $h(x)$ $$h(x) := f_p(x) - f(x)$$ surrogate gap $h(x)$については, H YuWd (Yuiga Wada) featured image 論文 Optimizer Toronto Paper Matching System https://yuiga.dev/blog/en/ja/posts/toronto_paper_matching_system/ Sun, 31 Jul 2022 17:44:35 +0900 Sun, 31 Jul 2022 17:44:35 +0900 https://yuiga.dev/blog/en/ja/posts/toronto_paper_matching_system/ YuWd (Yuiga Wada) misc 論文 post 【論文メモ】RegionCLIP: Region-based Language-Image Pretraining https://yuiga.dev/blog/en/ja/posts/regionclip_region-based_language-image_pretraining/ Sat, 30 Jul 2022 23:26:06 +0900 Sat, 30 Jul 2022 23:26:06 +0900 https://yuiga.dev/blog/en/ja/posts/regionclip_region-based_language-image_pretraining/ 問題点: CLIPは画像全体を用いるため, 物体検出には向かないそこで, 本論文ではCLIPをRegion-text matchingへと拡張した CLIPを用いた open-vocabularyな物体検出タスクが行える open-vocabulary object detection 関連研究としてViLDを挙げている ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation CVPR22 流れ [RPN](Resion Proposal Network)を用いて候補領域を探す RP YuWd (Yuiga Wada) featured image 論文【論文メモ】When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism https://yuiga.dev/blog/en/ja/posts/when_shift_operation_meets_vision_transformer_an_extremely_simple_alternative_to_attention_mechanism/ Thu, 28 Jul 2022 23:34:35 +0900 Thu, 28 Jul 2022 23:34:35 +0900 https://yuiga.dev/blog/en/ja/posts/when_shift_operation_meets_vision_transformer_an_extremely_simple_alternative_to_attention_mechanism/ Attentionはglobalでdynamic dynamicについては On the Connection between Local Attention and Dynamic Depth-wise Convolution しかし global→SwinTransformerを見るとそこまでViTの精度に関係なさそう dynamic→MLP-Mixerを見ると, MLPはstaticなので精度に関係なさそうそこでShiftViTを提案上図のように, 入力の YuWd (Yuiga Wada) featured image 論文【論文メモ】BoxInst: High-Performance Instance Segmentation with Box Annotations https://yuiga.dev/blog/en/ja/posts/boxinst_high-performance_instance_segmentation_with_box_annotations/ Mon, 25 Jul 2022 12:31:50 +0900 Mon, 25 Jul 2022 12:31:50 +0900 https://yuiga.dev/blog/en/ja/posts/boxinst_high-performance_instance_segmentation_with_box_annotations/ Instance SegmentationをBBOXのみで学習するモデルを提案 BBOXのみで学習するのでアノテーションが必要ないのが利点新たな損失を提案 Projection Loss Pairwise affinity Loss todo YuWd (Yuiga Wada) 論文【論文メモ】Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding https://yuiga.dev/blog/en/ja/posts/shifting_more_attention_to_visual_backbone_query-modulated_refinement_networks_for_end-to-end_visual_grounding/ Mon, 25 Jul 2022 12:30:45 +0900 Mon, 25 Jul 2022 12:30:45 +0900 https://yuiga.dev/blog/en/ja/posts/shifting_more_attention_to_visual_backbone_query-modulated_refinement_networks_for_end-to-end_visual_grounding/ 通常のV&Lモデルでは, 画像のバックボーンネットワークは言語特徴量を使用しないそのようなモデルでは, 「画像にりんごはいくつあるか？」などといったVQAタスクすら解けない(可能性が高い) そこで, SwinTransformerを拡張し, 各ステージで言語特徴量をspatial / channel方向にmixしながら推論し YuWd (Yuiga Wada) featured image 論文 Vision-and-Language 【論文メモ】BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation https://yuiga.dev/blog/en/ja/posts/blip_bootstrapping_language-image_pre-training_for_unified_vision-language_understanding_and_generation/ Mon, 25 Jul 2022 00:48:05 +0900 Mon, 25 Jul 2022 00:48:05 +0900 https://yuiga.dev/blog/en/ja/posts/blip_bootstrapping_language-image_pre-training_for_unified_vision-language_understanding_and_generation/ 提案手法は主に２つの機構で構成される Multimodal mixture of Encoder-Decoder (MED) Captioning and Filtering (CapFilt): CLIPの使用するデータセットはnoisy なので, キャプションの取捨選択を自動で行う機構を導入流れノイズを含む元のデータセットでMEDを学習事前学習されたMEDを用いてCapFiltを実行 CapFiitによって得られたデータセットを用いて再度MEDを学習 MED Image-TextContrastiveLoss(ITC) 画像特徴 YuWd (Yuiga Wada) featured image 論文 Vision-and-Language 【論文メモ】Large-Scale Adversarial Training for Vision-and-Language Representation Learning https://yuiga.dev/blog/en/ja/posts/large-scale_adversarial_training_for_vision-and-language_representation_learning/ Thu, 21 Jul 2022 11:30:58 +0900 Thu, 21 Jul 2022 11:30:58 +0900 https://yuiga.dev/blog/en/ja/posts/large-scale_adversarial_training_for_vision-and-language_representation_learning/ 各モダリティについて摂動を加えて学習 YuWd (Yuiga Wada) featured image 論文【論文メモ】On the Connection between Local Attention and Dynamic Depth-wise Convolution https://yuiga.dev/blog/en/ja/posts/on_the_connection_between_local_attention_and_dynamic_depth-wise_convolution/ Mon, 18 Jul 2022 00:18:19 +0900 Mon, 18 Jul 2022 00:18:19 +0900 https://yuiga.dev/blog/en/ja/posts/on_the_connection_between_local_attention_and_dynamic_depth-wise_convolution/ AttentionとDepthwise-Conv(DwConv)は似ているよ, という論文上図は画像をflatten or patchifyしたものがspatial方向であると捉えればOK (a): 畳み込みある区間の画素値と複数チャネルを使って一つの埋め込みを生成 (c): DepthWise と local attention ある一つのチャネルに対して, 区間の画素値のみから生成 (Poin YuWd (Yuiga Wada) featured image 論文【論文メモ】Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem https://yuiga.dev/blog/en/ja/posts/word_tour_one-dimensional_word_embeddings_via_the_traveling_salesman_problem/ Sun, 17 Jul 2022 22:14:54 +0900 Sun, 17 Jul 2022 22:14:54 +0900 https://yuiga.dev/blog/en/ja/posts/word_tour_one-dimensional_word_embeddings_via_the_traveling_salesman_problem/ 単語の埋め込みを一次元で行う TSPを解くだけ論文中ではWord Tour と呼んでいる GBDT等の決定木ベース手法が解釈しやすいようにWord Tour を使うとうまくいく場合があるらしい例えば, NNで特徴量を作った後に, Word Tourでクラスタの重心を一次元に埋め込んでGBDTに掛ける的な https://twitter.com/Py2K4/status/1545215820413865985 YuWd (Yuiga Wada) 論文【論文メモ】Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection https://yuiga.dev/blog/en/ja/posts/modeling_the_distribution_of_normal_data_in_pre-trained_deep_features_for_anomaly_detection/ Fri, 15 Jul 2022 00:54:41 +0900 Fri, 15 Jul 2022 00:54:41 +0900 https://yuiga.dev/blog/en/ja/posts/modeling_the_distribution_of_normal_data_in_pre-trained_deep_features_for_anomaly_detection/ モデルを学習させることなく, 異常検知を行う流れ事前学習済みEfficientNetに正常データを流すモデルの中間層で抽出された正常データの特徴量を, 各層ごとに多次元正規分布で近似得られた分布を正常データの分布と仮定し, マハラノビス距離を用いて異常検知例えば下図だと, 32x112x112の特徴量をGlobal Average Pooli YuWd (Yuiga Wada) featured image 論文異常検知【論文メモ】Representation Learning on Graphs with Jumping Knowledge Networks https://yuiga.dev/blog/en/ja/posts/representation_learning_on_graphs_with_jumping_knowledge_networks/ Tue, 12 Jul 2022 18:10:21 +0900 Tue, 12 Jul 2022 18:10:21 +0900 https://yuiga.dev/blog/en/ja/posts/representation_learning_on_graphs_with_jumping_knowledge_networks/ 概要隣接ノードからのaggregationだけでは, k層のGCNはただのrandom-walkと変わらない r.w = random-walk 濃い色のノードはInfluence Probabilityの高いもの各ノードの影響範囲が大きくてもダメだし, 小さくてもダメなので, 各層の出力をすべて使用し, モデルに適切な影響半径を決めさせるJumping Knowledge Ne YuWd (Yuiga Wada) featured image 論文 GNN Graph 【論文メモ】Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains https://yuiga.dev/blog/en/ja/posts/fourier_features_let_networks_learn_high_frequency_functions_in_low_dimensional_domains/ Tue, 12 Jul 2022 16:57:14 +0900 Tue, 12 Jul 2022 16:57:14 +0900 https://yuiga.dev/blog/en/ja/posts/fourier_features_let_networks_learn_high_frequency_functions_in_low_dimensional_domains/ NeRFで用いられるPositional Encodingについて, NTKによる分析を行った論文 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ NeRFのPositional Encoding をバンドパスフィルタと考える低周波数成分→高周波数成分への写像関数の学習 Positional Encodingを入れるかどうかでだいぶ精度が変わる例えば(b)の場合, (x,y) の座標値からRGBを復元するML YuWd (Yuiga Wada) featured image 論文【論文メモ】Perceiver: General Perception with Iterative Attention https://yuiga.dev/blog/en/ja/posts/perceiver_general_perception_with_iterative_attention/ Mon, 11 Jul 2022 17:52:48 +0900 Mon, 11 Jul 2022 17:52:48 +0900 https://yuiga.dev/blog/en/ja/posts/perceiver_general_perception_with_iterative_attention/ Transformer を改善 Qを潜在変数とすることで, $L^2$の呪いから解放してあげる音声系 / 時系列予測にも適してる潜在変数をcentroidとして, 高次元の入力 $x$ をend-to-endでクラスタリングしてるとも捉えうるつまり, 入力 $x$をタグ付けしてるイメージ (と論文内で言っている) Positional Encoding 普通のPEの代わりに, フーリエ変換した特徴量を使 YuWd (Yuiga Wada) featured image 論文【論文メモ】NeRF https://yuiga.dev/blog/en/ja/posts/nerf/ Mon, 11 Jul 2022 17:34:01 +0900 Mon, 11 Jul 2022 17:34:01 +0900 https://yuiga.dev/blog/en/ja/posts/nerf/ Positional Encoding 低周波成分である $(x,y,z,\theta,\phi)$から高周波成分である $(R,G,B,D)$を復元するため, 以下に示すPositional Encodingを通したあとにMLPに入力 $$\gamma(t) = (\sin(2^0t\pi), \cos(2^0t\pi), \cdots, \sin(2^Lt\pi), \cos(2^Lt\pi))$$ この機構をNTKによって実験した論文→ Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains このPositional Encodingはフーリエ特 YuWd (Yuiga Wada) featured image 論文 CV 【論文メモ】SAF: Sharpness Aware Training for Free https://yuiga.dev/blog/en/ja/posts/saf_sharpness_aware_training_for_free/ Thu, 07 Jul 2022 11:05:42 +0900 Thu, 07 Jul 2022 11:05:42 +0900 https://yuiga.dev/blog/en/ja/posts/saf_sharpness_aware_training_for_free/ todo YuWd (Yuiga Wada) featured image 論文 ar5ivのコードを読む https://yuiga.dev/blog/en/ja/posts/ar5iv%E3%81%AE%E3%82%B3%E3%83%BC%E3%83%89%E3%82%92%E8%AA%AD%E3%82%80/ Thu, 07 Jul 2022 11:05:35 +0900 Thu, 07 Jul 2022 11:05:35 +0900 https://yuiga.dev/blog/en/ja/posts/ar5iv%E3%81%AE%E3%82%B3%E3%83%BC%E3%83%89%E3%82%92%E8%AA%AD%E3%82%80/ https://github.com/dginev/ar5iv 前提: arxivは投稿時, texをアップロードしなければならない ar5iv: 裏でクローラを回して, latexmlをキャッシュしてるだけっぽい最終的にHTMLに変換されたものをzipで固めてサーバ上で管理レンダリング時はzipを展開して独自のCSSで書き換えたものを表示 Rust製 YuWd (Yuiga Wada) misc 論文 Rust post 【論文メモ】Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation https://yuiga.dev/blog/en/ja/posts/think_global_act_local_dual-scale_graph_transformer_for_vision-and-language_navigation/ Thu, 07 Jul 2022 02:01:33 +0900 Thu, 07 Jul 2022 02:01:33 +0900 https://yuiga.dev/blog/en/ja/posts/think_global_act_local_dual-scale_graph_transformer_for_vision-and-language_navigation/ VLN-DUET 概要 localな情報とグラフを用いたglobalな情報の両方を統合してactionを決定する actionが決定されたら, Graphを動的に構築して, 移動先までの最短経路をワーシャルフロイドで探索各ノードには, viewから得られた特徴量を埋め込み表現として保持する行動 $a^\pi$は各ノードへの尤度によって表現され, ノ YuWd (Yuiga Wada) featured image 論文 Vision-and-Language 【論文メモ】Graph Transformer: A Generalization of Transformer Networks to Graphs https://yuiga.dev/blog/en/ja/posts/graph_transformer_a_generalization_of_transformer_networks_to_graphs/ Thu, 07 Jul 2022 01:57:04 +0900 Thu, 07 Jul 2022 01:57:04 +0900 https://yuiga.dev/blog/en/ja/posts/graph_transformer_a_generalization_of_transformer_networks_to_graphs/ 任意のGraphに適応可能な, 汎用Transformer Positional Encodingがラプラシアン行列の固有値で表現されるラプラシアン行列の固有値 $\lambda$は頻度・周波数的な側面を持つ → グラフ上のフーリエ変換・畳み込みでは $\lambda$が使われる (いつかまとめる→todo) todo https://arxiv.org/pdf/2012.09699v2.pdf YuWd (Yuiga Wada) featured image 論文【論文メモ】ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation https://yuiga.dev/blog/en/ja/posts/vild_open-vocabulary_object_detection_via_vision_and_language_knowledge_distillation/ Thu, 07 Jul 2022 01:18:43 +0900 Thu, 07 Jul 2022 01:18:43 +0900 https://yuiga.dev/blog/en/ja/posts/vild_open-vocabulary_object_detection_via_vision_and_language_knowledge_distillation/ Open-Vocabulary (任意テキスト入力)な物体検出モデル classifierがCLIP特徴量になっている YuWd (Yuiga Wada) featured image 論文【論文メモ】SwinIR: Image Restoration Using Swin Transformer https://yuiga.dev/blog/en/ja/posts/swinir_image_restoration_using_swin_transformer/ Thu, 07 Jul 2022 01:17:49 +0900 Thu, 07 Jul 2022 01:17:49 +0900 https://yuiga.dev/blog/en/ja/posts/swinir_image_restoration_using_swin_transformer/ 残差接続が大量にあるの面白い多分だけど, 真っ黒から真っ黒への変換みたいな無意味な変換によって重みの学習を引っ張られたくないので, クソデカ残差を入れているのだと思う (オキモチ) SwinTransformerのおかげでパラメタ数はかなり減っている YuWd (Yuiga Wada) featured image 論文【論文メモ】LXMERT https://yuiga.dev/blog/en/ja/posts/lxmert/ Thu, 07 Jul 2022 00:45:57 +0900 Thu, 07 Jul 2022 00:45:57 +0900 https://yuiga.dev/blog/en/ja/posts/lxmert/ ViLBERTとの大きな違いは, ROIのみを入力とする点 YuWd (Yuiga Wada) featured image 論文 Impact Factor https://yuiga.dev/blog/en/ja/posts/impact_factor/ Wed, 06 Jul 2022 22:44:00 +0900 Wed, 06 Jul 2022 22:44:00 +0900 https://yuiga.dev/blog/en/ja/posts/impact_factor/ 学術雑誌の影響力を測る指標らしい (そんなのあるんだ) 今年の被引用数を過去2年分のPublicationで割る $\displaystyle {\text{IF}}_{y}={\frac {{\text{Citations}}_{y}}{{\text{Publications}}_{y-1}+{\text{Publications}}_{y-2}}}.$ YuWd (Yuiga Wada) 論文 post 【論文メモ】Do Transformer Modifications Transfer Across Implementations and Applications? https://yuiga.dev/blog/en/ja/posts/do_transformer_modifications_transfer_across_implementations_and_applications/ Mon, 27 Jun 2022 11:52:58 +0900 Mon, 27 Jun 2022 11:52:58 +0900 https://yuiga.dev/blog/en/ja/posts/do_transformer_modifications_transfer_across_implementations_and_applications/ Transformerの改善案は大量にあるが, 本当に有効なのはどれだけあるの？という論文結論 (有効な改善方法) 活性化関数: GLU+GeLU/Swish 正規化: RMS Norm パラメタ共有: デコーダの入出力における埋め込み表現を共有すると良いアーキテクチャ Mixture of Experts Transformer Synthesizer Product Key Memory YuWd (Yuiga Wada) 論文【論文メモ】CP-GAN https://yuiga.dev/blog/en/ja/posts/cp-gan/ Mon, 27 Jun 2022 11:35:01 +0900 Mon, 27 Jun 2022 11:35:01 +0900 https://yuiga.dev/blog/en/ja/posts/cp-gan/ todo YuWd (Yuiga Wada) 論文【論文メモ】CLIP https://yuiga.dev/blog/en/ja/posts/clip/ Mon, 27 Jun 2022 11:15:34 +0900 Mon, 27 Jun 2022 11:15:34 +0900 https://yuiga.dev/blog/en/ja/posts/clip/ CLIPによって, image↔textの特徴量変換が容易になったと言える → ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation YuWd (Yuiga Wada) featured image 論文機械学習【論文メモ】HAMT - History Aware Multimodal Transformer for Vision-and-Language Navigation https://yuiga.dev/blog/en/ja/posts/hamt_-_history_aware_multimodal_transformer_for_vision-and-language_navigation/ Sun, 26 Jun 2022 23:41:45 +0900 Sun, 26 Jun 2022 23:41:45 +0900 https://yuiga.dev/blog/en/ja/posts/hamt_-_history_aware_multimodal_transformer_for_vision-and-language_navigation/ パラメタの更新にActor-Criticを使用強化学習と模倣学習の両方を組み込んでいる YuWd (Yuiga Wada) featured image 論文【論文メモ】SOHO - Seeing Out of tHe bOx : End-to-End Pre-training for Vision-Language Representation Learning https://yuiga.dev/blog/en/ja/posts/soho_-_seeing_out_of_the_box__end-to-end_pre-training_for_vision-language_representation_learning/ Sun, 26 Jun 2022 21:51:51 +0900 Sun, 26 Jun 2022 21:51:51 +0900 https://yuiga.dev/blog/en/ja/posts/soho_-_seeing_out_of_the_box__end-to-end_pre-training_for_vision-language_representation_learning/ クラスタリングの上位互換みたいなことをするパッチを特徴空間に飛ばすパッチに映る物体が同じ種類の物体なら, その特徴が同じクラスタidに含まれるように学習 YuWd (Yuiga Wada) featured image 論文【論文メモ】REVERIE - Remote Embodied Visual Referring Expression in Real Indoor Environments https://yuiga.dev/blog/en/ja/posts/reverie_-_remote_embodied_visual_referring_expression_in_real_indoor_environments/ Sun, 26 Jun 2022 17:18:43 +0900 Sun, 26 Jun 2022 17:18:43 +0900 https://yuiga.dev/blog/en/ja/posts/reverie_-_remote_embodied_visual_referring_expression_in_real_indoor_environments/ YuWd (Yuiga Wada) featured image 論文 multi-modal Vision-and-Language 【論文メモ】Maximum Classifier Discrepancy for Unsupervised Domain Adaptation https://yuiga.dev/blog/en/ja/posts/maximum_classifier_discrepancy_for_unsupervised_domain_adaptation/ Sun, 19 Jun 2022 01:43:11 +0900 Sun, 19 Jun 2022 01:43:11 +0900 https://yuiga.dev/blog/en/ja/posts/maximum_classifier_discrepancy_for_unsupervised_domain_adaptation/ Domain Adaptation 従来手法 : sourceとtargetとで分布が違うはずなのに, ドメイン同士の境界(赤線)を基準に近づけようとしている → 分布の違いを考慮しつつ決定境界を修正する必要がある → GAN GAN風に学習する２つのclassifierとそれらを生成するgenerator YuWd (Yuiga Wada) featured image 論文【論文メモ】Manifold Mixup: Better Representations by Interpolating Hidden States https://yuiga.dev/blog/en/ja/posts/manifold_mixup_better_representations_by_interpolating_hidden_states/ Wed, 15 Jun 2022 22:21:20 +0900 Wed, 15 Jun 2022 22:21:20 +0900 https://yuiga.dev/blog/en/ja/posts/manifold_mixup_better_representations_by_interpolating_hidden_states/ どういうの？無作為に選んだ層までは普通に計算して，その層の出力の複数をランダムに選んでMixup そのままその値を使って最終層まで計算＆lossを計算し, 逆伝播決定境界が滑らかになるらしい簡単に説明すると, まず特徴量空間上で特徴量がflattenな状態に収束していくらしい flatten=小さい部分空間で表現できるというこ YuWd (Yuiga Wada) featured image 論文【論文メモ】Un-Mix https://yuiga.dev/blog/en/ja/posts/un-mix/ Tue, 14 Jun 2022 22:30:40 +0900 Tue, 14 Jun 2022 22:30:40 +0900 https://yuiga.dev/blog/en/ja/posts/un-mix/ $I_A$ にCutMixとMixup を掛ける ( Mixup: $I_{A}^{M}=\lambda I_{1}+(1-\lambda) I_{2}$) 画像の混合比率 $\lambda$ に応じて, 正例間の意味的距離を調節 $$\mathcal{L}_{final}!=!\mathcal{L}_{ori}+\underbrace{\lambda \mathcal{L}_{m}!(I_A^{M} (\downarrow), \hat I_A)}_{\text {normal order of mixtures}}!+!\underbrace{(1!-!\lambda) \mathcal{L}_{m}!(I_A^{M} (\uparrow), \hat I_A)}_{\text {reverse order of mixtures}} $$ Mix方法は, 単純にミニバッチを反転させて, indexごとにmixするだけ Mixup が効いて, より決定境界が明瞭に YuWd (Yuiga Wada) featured image 自己教師あり学習論文【論文メモ】SwAV https://yuiga.dev/blog/en/ja/posts/swav/ Mon, 13 Jun 2022 22:46:58 +0900 Mon, 13 Jun 2022 22:46:58 +0900 https://yuiga.dev/blog/en/ja/posts/swav/ Unsupervised Learning of Visual Features by Contrasting Cluster Assignments Prototypical Contrastive Learning of Unsupervised Representations より複雑なことしてる Sinkhorn-Knoppアルゴリズムを用いてクラスの割当を最適化 YuWd (Yuiga Wada) featured image 自己教師あり学習クラスタリング論文【論文メモ】Sinkhorn Distances: Lightspeed Computation of Optimal Transport https://yuiga.dev/blog/en/ja/posts/sinkhorn_distances_lightspeed_computation_of_optimal_transport/ Mon, 13 Jun 2022 11:21:49 +0900 Mon, 13 Jun 2022 11:21:49 +0900 https://yuiga.dev/blog/en/ja/posts/sinkhorn_distances_lightspeed_computation_of_optimal_transport/ Sinkhorn-Knoppアルゴリズムによって, 最適輸送距離を近似 YuWd (Yuiga Wada) 論文【論文メモ】Supervised Contrastive Learning https://yuiga.dev/blog/en/ja/posts/supervised_contrastive_learning/ Sun, 12 Jun 2022 19:19:07 +0900 Sun, 12 Jun 2022 19:19:07 +0900 https://yuiga.dev/blog/en/ja/posts/supervised_contrastive_learning/ Prototypical Contrastive Learning of Unsupervised Representations と同じ動機本来類似度が高くても負例ペアは負例ペアとして認識してしまうので, よくないよね → ラベル情報を使いましょう → [* 教師あり対照学習] こうじゃなくて (一番下の犬がtarget) こうしたい YuWd (Yuiga Wada) featured image 論文自己教師あり学習【論文メモ】Multi-level Wavelet Convolutional Neural Networks https://yuiga.dev/blog/en/ja/posts/multi-level_wavelet_convolutional_neural_networks/ Thu, 09 Jun 2022 00:34:21 +0900 Thu, 09 Jun 2022 00:34:21 +0900 https://yuiga.dev/blog/en/ja/posts/multi-level_wavelet_convolutional_neural_networks/ YuWd (Yuiga Wada) 論文ウェーブレット変換【論文メモ】Transformer Interpretability Beyond Attention Visualization https://yuiga.dev/blog/en/ja/posts/transformer_interpretability_beyond_attention_visualization/ Wed, 08 Jun 2022 23:21:08 +0900 Wed, 08 Jun 2022 23:21:08 +0900 https://yuiga.dev/blog/en/ja/posts/transformer_interpretability_beyond_attention_visualization/ LRPをTransformerにも使用できるようにしたもの LRPでは行列和や行列積に対応できない → いい感じに代替 YuWd (Yuiga Wada) featured image 論文説明性【論文メモ】This Looks Like That: Deep Learning for Interpretable Image Recognition https://yuiga.dev/blog/en/ja/posts/this_looks_like_that_deep_learning_for_interpretable_image_recognition/ Wed, 08 Jun 2022 22:36:43 +0900 Wed, 08 Jun 2022 22:36:43 +0900 https://yuiga.dev/blog/en/ja/posts/this_looks_like_that_deep_learning_for_interpretable_image_recognition/ 割と学習が難しいらしい？ Clst: 潜在変数をパッチ単位で分割して, クラスタリング Sep: クラスタ同士を遠ざけるように学習 YuWd (Yuiga Wada) featured image 論文【論文メモ】Affinity loss https://yuiga.dev/blog/en/ja/posts/affinity_loss/ Wed, 08 Jun 2022 19:51:47 +0900 Wed, 08 Jun 2022 19:51:47 +0900 https://yuiga.dev/blog/en/ja/posts/affinity_loss/ ソフトマックスにクラスタリングの要素を持ち込んで、不均衡を是正するアルゴリズム. サポートベクターマシンのようなマージン最大化問題を考える YuWd (Yuiga Wada) 論文不均衡データ【論文メモ】Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead https://yuiga.dev/blog/en/ja/posts/stop_explaining_black_box_machine_learning_models_for_high_stakes_decisions_and_use_interpretable_models_instead/ Tue, 07 Jun 2022 19:13:36 +0900 Tue, 07 Jun 2022 19:13:36 +0900 https://yuiga.dev/blog/en/ja/posts/stop_explaining_black_box_machine_learning_models_for_high_stakes_decisions_and_use_interpretable_models_instead/ 事後的な説明性は必ず近似を含むので, モデルの説明にはならないなので近似を含ませずに直接解釈可能なモデルを作らねばならないステークホルダーは解釈可能性よりも, とりあえず「説明」がほしいということがよくあるなので, 決定木ベースであったり, スコアリングベースの手法がビジネスで使われてしまうまたステークホルダーは説明性を出力し YuWd (Yuiga Wada) 論文サーベイ論文【論文メモ】Less complexity one-class classification approach using construction error of convolutional image transformation network https://yuiga.dev/blog/en/ja/posts/less_complexity_one-class_classification_approach_using_construction_error_of_convolutional_image_transformation_network/ Sun, 29 May 2022 02:29:38 +0900 Sun, 29 May 2022 02:29:38 +0900 https://yuiga.dev/blog/en/ja/posts/less_complexity_one-class_classification_approach_using_construction_error_of_convolutional_image_transformation_network/ 如何に異常検知を行うか？例えば, りんご以外を弾くようなモデルはどのように作れば良いのか本論文では, AutoEncoder と同じ格好で, りんごだけをすべてLennaに変換するように学習するなので, りんごでない部分が入力された際は変な画像が生成されてしまうことになる YuWd (Yuiga Wada) featured image 論文異常検知【論文メモ】IA-RED2 https://yuiga.dev/blog/en/ja/posts/ia-red2/ Sat, 28 May 2022 14:17:26 +0900 Sat, 28 May 2022 14:17:26 +0900 https://yuiga.dev/blog/en/ja/posts/ia-red2/ AdaViTから引用されているパッチを途中でdropさせることができるめちゃくちゃ速い強化学習っぽく学習 YuWd (Yuiga Wada) 論文説明性【論文メモ】MixFormer https://yuiga.dev/blog/en/ja/posts/mixformer/ Sat, 28 May 2022 02:37:26 +0900 Sat, 28 May 2022 02:37:26 +0900 https://yuiga.dev/blog/en/ja/posts/mixformer/ SwinTransformer の Local-window と, DwConv (PointWise・Depthwise) を並列に接続なぜ？ YuWd (Yuiga Wada) featured image 論文【論文メモ】CycleMLP https://yuiga.dev/blog/en/ja/posts/cyclemlp/ Sat, 28 May 2022 01:47:06 +0900 Sat, 28 May 2022 01:47:06 +0900 https://yuiga.dev/blog/en/ja/posts/cyclemlp/ 従来のMLPモデルの問題点を克服 (Channel FC:性能が不十分、Spatial FC:計算量が多い) 任意の画像サイズに対応可能なCycle FCを提案 SwinTransformerよりも受容野が広いらしい YuWd (Yuiga Wada) featured image 論文【論文メモ】Pix2seq https://yuiga.dev/blog/en/ja/posts/pix2seq/ Mon, 23 May 2022 20:03:26 +0900 Mon, 23 May 2022 20:03:26 +0900 https://yuiga.dev/blog/en/ja/posts/pix2seq/ 入力 : 画像出力 : $(y_{\text{min}},x_{\text{min}},y_{\text{max}},x_{\text{max}},c)$ 普通のMLMと同じ感じで, 学習. $$\text{maximize}\sum_{j=1}^{L}\bm{w}_{j}\log P(\tilde{\bm{y}}_{j}|{\bm{x}},{\bm {y}}_{1:j-1})~{},$$ YuWd (Yuiga Wada) featured image 論文物体検出【論文メモ】ROAR https://yuiga.dev/blog/en/ja/posts/roar/ Fri, 20 May 2022 19:12:41 +0900 Fri, 20 May 2022 19:12:41 +0900 https://yuiga.dev/blog/en/ja/posts/roar/ 何らかの基準でマスクして, 説明指標を評価マスクした画像がOODにならないように, マスクした画像を使って更に学習マスク方法 → 比較対象は Random / Sobel 比較されている手法は grad / Guided Backprop / Integrated Gradients / SmoothGrad / SG-SQ / VarGrad 最も良い結果が得られたのはSG-SQとVarGrad YuWd (Yuiga Wada) featured image 論文説明性【論文メモ】FullGrad https://yuiga.dev/blog/en/ja/posts/fullgrad/ Wed, 18 May 2022 21:12:02 +0900 Wed, 18 May 2022 21:12:02 +0900 https://yuiga.dev/blog/en/ja/posts/fullgrad/ Saliency Map は Weak dependenceとCompletenessを満たす必要がある Weak dependence Saliency Map $S(x)$ と入力 $x$ に弱い依存関係がある状態ここでは, $x$ がどの集合に属しているかで $f(x)$ が定まる状態と定義 Completeness Saliency Map $S(x)$ と入力 $x$ から元のモデル $f(x)$が復元できる状態例えば, バイアス $\boldsymbol{b}$を使わずに生成した $S(x)$では復元でき YuWd (Yuiga Wada) featured image 論文説明性【論文メモ】RelTransformer https://yuiga.dev/blog/en/ja/posts/reltransformer/ Tue, 17 May 2022 18:47:10 +0900 Tue, 17 May 2022 18:47:10 +0900 https://yuiga.dev/blog/en/ja/posts/reltransformer/ タスクはVRR (Visual Releationship Recognition) 既存手法はGNNなどが多いが, GNNは近傍しか見ておらず, 自分に近いところの関係しか見ていない例: 野球野球選手とバットだけを見るよりも, 周りのキャッチャーやピッチャーの情報もコンテキスト情報として有益着目物体 $n_s $と物体 $n_o$ と, その関係 $r$ のtripletを入力して, encode encodeしたtripletから, YuWd (Yuiga Wada) featured image 論文不均衡データ【論文メモ】TCFormer https://yuiga.dev/blog/en/ja/posts/tcformer/ Mon, 16 May 2022 13:55:34 +0900 Mon, 16 May 2022 13:55:34 +0900 https://yuiga.dev/blog/en/ja/posts/tcformer/ YuWd (Yuiga Wada) featured image 論文【論文メモ】SiT https://yuiga.dev/blog/en/ja/posts/sit/ Sun, 15 May 2022 21:10:22 +0900 Sun, 15 May 2022 21:10:22 +0900 https://yuiga.dev/blog/en/ja/posts/sit/ YuWd (Yuiga Wada) 論文 ViT 【論文メモ】Learning multiple visual domains with residual adapters https://yuiga.dev/blog/en/ja/posts/learning_multiple_visual_domains_with_residual_adapters/ Sun, 15 May 2022 15:29:44 +0900 Sun, 15 May 2022 15:29:44 +0900 https://yuiga.dev/blog/en/ja/posts/learning_multiple_visual_domains_with_residual_adapters/ カーネルを選定するようなサブネットワークを作成する Adapter todo: できればもう一度読み返したい YuWd (Yuiga Wada) 論文【論文メモ】Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition https://yuiga.dev/blog/en/ja/posts/adapt-and-adjust_overcoming_the_long-tail_problem_of_multilingual_speech_recognition/ Thu, 12 May 2022 17:41:56 +0900 Thu, 12 May 2022 17:41:56 +0900 https://yuiga.dev/blog/en/ja/posts/adapt-and-adjust_overcoming_the_long-tail_problem_of_multilingual_speech_recognition/ Adapt-and-Adjust (A2), end-to-endの多言語音声認識モデル multilingual language modelをspeach-decoderとする Dual-Adaptersを採用言語ごとに特徴抽出器を切り替えるイメージこれってほんとに言語ごとに切り替わってるの？ Adapterは Large-Scale Multilingual Speech Recognition with a Streaming End-to-End Modelが初出？ → と思ったら違った初出: Learning multiple visual domains with residual adapters YuWd (Yuiga Wada) featured image 論文不均衡データ音声【論文メモ】Two-phase training mitigates class imbalance for camera trap image classification with CNNs https://yuiga.dev/blog/en/ja/posts/two-phase_training_mitigates_class_imbalance_for_camera_trap_image_classification_with_cnns/ Thu, 12 May 2022 11:26:24 +0900 Thu, 12 May 2022 11:26:24 +0900 https://yuiga.dev/blog/en/ja/posts/two-phase_training_mitigates_class_imbalance_for_camera_trap_image_classification_with_cnns/ Decoupling Representation and Classifier for Long-Tailed Recognition と真反対の手法 step1. balancedなデータセットで学習 step2. 特徴量抽出器の重みを固定して, 元のデータセットで線形分類器だけfine-tuning Class-specific F1-Scoreを用いて評価 YuWd (Yuiga Wada) 論文不均衡データ【論文メモ】Decoupling Representation and Classifier for Long-Tailed Recognition https://yuiga.dev/blog/en/ja/posts/decoupling_representation_and_classifier_for_long-tailed_recognition/ Thu, 12 May 2022 11:22:33 +0900 Thu, 12 May 2022 11:22:33 +0900 https://yuiga.dev/blog/en/ja/posts/decoupling_representation_and_classifier_for_long-tailed_recognition/ クラス間の分布が違う=クラス間不均衡による影響についての論文一般にモデルは「特徴量抽出器」と「クラス分類器」で構成されているクラス間の分布が違う場合, 「特徴量抽出器」と「クラス分類器」のどちらに悪影響か？答えは「クラス分類器」特徴量の抽出においては, そこまで悪い影響はないらしいクラス分類器 : 写像された特徴空間において, YuWd (Yuiga Wada) featured image 機械学習論文【論文メモ】Rethinking the Value of Labels for Improving Class-Imbalanced Learning https://yuiga.dev/blog/en/ja/posts/rethinking_the_value_of_labels_for_improving_class-imbalanced_learning/ Tue, 10 May 2022 20:32:05 +0900 Tue, 10 May 2022 20:32:05 +0900 https://yuiga.dev/blog/en/ja/posts/rethinking_the_value_of_labels_for_improving_class-imbalanced_learning/ 不均衡データには正と負の両方の側面がある正の側面性能に寄与する → 負の側面サンプル数が多いクラスに引っ張られて決定境界が歪む → https://arxiv.org/abs/2006.07529 YuWd (Yuiga Wada) 論文 todo 自己教師あり学習【論文メモ】No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for Training Large Transformer Models https://yuiga.dev/blog/en/ja/posts/no_parameters_left_behind_sensitivity_guided_adaptive_learning_rate_for_training_large_transformer_models/ Tue, 10 May 2022 14:16:57 +0900 Tue, 10 May 2022 14:16:57 +0900 https://yuiga.dev/blog/en/ja/posts/no_parameters_left_behind_sensitivity_guided_adaptive_learning_rate_for_training_large_transformer_models/ https://arxiv.org/pdf/2202.02664.pdf YuWd (Yuiga Wada) 論文 todo 【論文メモ】Should You Mask 15% in Masked Language Modeling? https://yuiga.dev/blog/en/ja/posts/should_you_mask_15_in_masked_language_modeling/ Tue, 10 May 2022 14:16:35 +0900 Tue, 10 May 2022 14:16:35 +0900 https://yuiga.dev/blog/en/ja/posts/should_you_mask_15_in_masked_language_modeling/ https://arxiv.org/pdf/2202.08005.pdf YuWd (Yuiga Wada) 論文 todo 【論文メモ】Masked Siamese Networks for Label-Efficient Learning https://yuiga.dev/blog/en/ja/posts/masked_siamese_networks_for_label-efficient_learning/ Tue, 10 May 2022 13:25:09 +0900 Tue, 10 May 2022 13:25:09 +0900 https://yuiga.dev/blog/en/ja/posts/masked_siamese_networks_for_label-efficient_learning/ MAEっぽく, パッチをマスクしたものと元画像の間でSiamese Network https://www.slideshare.net/DeepLearningJP2016/dlmasked-siamese-networks-for-labelefficient-learning YuWd (Yuiga Wada) 論文【論文メモ】Self-Distillation Amplifies Regularization in Hilbert Space https://yuiga.dev/blog/en/ja/posts/self-distillation_amplifies_regularization_in_hilbert_space/ Tue, 10 May 2022 11:33:58 +0900 Tue, 10 May 2022 11:33:58 +0900 https://yuiga.dev/blog/en/ja/posts/self-distillation_amplifies_regularization_in_hilbert_space/ Self-Distillation が如何に効いているかを理論的に解析 Mercer’s theorem https://arxiv.org/pdf/2002.05715.pdf YuWd (Yuiga Wada) 論文【論文メモ】Self-Supervised Learning for Semi-Supervised Time Series Classification https://yuiga.dev/blog/en/ja/posts/self-supervised_learning_for_semi-supervised_time_series_classification/ Tue, 10 May 2022 11:16:03 +0900 Tue, 10 May 2022 11:16:03 +0900 https://yuiga.dev/blog/en/ja/posts/self-supervised_learning_for_semi-supervised_time_series_classification/ https://www.ismll.uni-hildesheim.de/pub/pdfs/pakdd_shayan.pdf YuWd (Yuiga Wada) 論文 todo 【論文メモ】ConvMAE https://yuiga.dev/blog/en/ja/posts/convmae/ Tue, 10 May 2022 11:04:57 +0900 Tue, 10 May 2022 11:04:57 +0900 https://yuiga.dev/blog/en/ja/posts/convmae/ Convolutionを用いたViT におけるMAE を提案 https://arxiv.org/abs/2205.03892 YuWd (Yuiga Wada) featured image 論文【論文メモ】Self-supervised Learning is More Robust to Dataset Imbalance https://yuiga.dev/blog/en/ja/posts/self-supervised_learning_is_more_robust_to_dataset_imbalance/ Tue, 10 May 2022 01:49:08 +0900 Tue, 10 May 2022 01:49:08 +0900 https://yuiga.dev/blog/en/ja/posts/self-supervised_learning_is_more_robust_to_dataset_imbalance/ 自己教師あり学習 → 不均衡データに対して強いロバスト性ありラベルに囚われない表現も学習してくれるので, ロバスト性が強い事前学習時はSAMを使うとよいらしい (SAM : Sharpness-Aware Minimization) YuWd (Yuiga Wada) 論文【論文メモ】PVT https://yuiga.dev/blog/en/ja/posts/pvt/ Mon, 09 May 2022 22:04:23 +0900 Mon, 09 May 2022 22:04:23 +0900 https://yuiga.dev/blog/en/ja/posts/pvt/ Pyramid Vision Transformer PVT v2では Positional Encodingが存在しない https://twitter.com/yu4u/status/1522360958228000769 FFNにzero padding付きのdepthwise convを入れることで位置情報をencodeさせて, Positional Encodingを置換 zero paddingに重要性がある → How Much Position Information Do Convolutional Neural Networks Encode? YuWd (Yuiga Wada) featured image 論文【論文メモ】AdaViT https://yuiga.dev/blog/en/ja/posts/adavit/ Mon, 09 May 2022 21:51:34 +0900 Mon, 09 May 2022 21:51:34 +0900 https://yuiga.dev/blog/en/ja/posts/adavit/ 残差構造・selection構造を組み込んだViT Patch Selection : パッチを選定 Head Selection : ヘッドを選定 Block Selection : MHA・FFNを使うかどうか選定 https://arxiv.org/abs/2111.15668 YuWd (Yuiga Wada) featured image 論文【論文メモ】Attention on Attention https://yuiga.dev/blog/en/ja/posts/attention_on_attention/ Mon, 09 May 2022 21:50:14 +0900 Mon, 09 May 2022 21:50:14 +0900 https://yuiga.dev/blog/en/ja/posts/attention_on_attention/ https://arxiv.org/abs/1908.06954 YuWd (Yuiga Wada) featured image 論文【論文メモ】How Much Position Information Do Convolutional Neural Networks Encode? https://yuiga.dev/blog/en/ja/posts/how_much_position_information_do_convolutional_neural_networks_encode/ Fri, 06 May 2022 15:25:13 +0900 Fri, 06 May 2022 15:25:13 +0900 https://yuiga.dev/blog/en/ja/posts/how_much_position_information_do_convolutional_neural_networks_encode/ 仮説 : CNNは絶対的な位置情報を獲得している PoSENet : 位置情報のmapを予測するモデルを構築して仮説を検証 $f_{enc}$が位置情報がエンコードするなら, $f_{enc}$の中間層の出力から, 位置情報を復元できるはず f1よりもf5のほうが位置mapの精度が高いより深い層のほうがより強く位置情報を保持している仮説「位置情報は YuWd (Yuiga Wada) featured image 論文【論文メモ】CMO https://yuiga.dev/blog/en/ja/posts/cmo/ Wed, 27 Apr 2022 23:49:33 +0900 Wed, 27 Apr 2022 23:49:33 +0900 https://yuiga.dev/blog/en/ja/posts/cmo/ 不均衡データに有効なaugmentation手法であるCMOを提案 Influenced-Balanced Loss と同じ著者 YuWd (Yuiga Wada) featured image 論文【論文メモ】cosFormer https://yuiga.dev/blog/en/ja/posts/cosformer/ Sun, 24 Apr 2022 01:54:44 +0900 Sun, 24 Apr 2022 01:54:44 +0900 https://yuiga.dev/blog/en/ja/posts/cosformer/ ICLR 2022 普通のTransformer $$Attention(Q, K, V)_i = \frac{\sum_{j=1}^n\exp(q_i^Tk_j)\cdot v_j}{\sum_{j=1}^n\exp(q_i^Tk_j)}$$ expが括り出せれば, iとjとで分離できる → Linear Attention: Transformers are RNNs Attentionにおけるsoftmaxの重要な特性 Attention Matrix $A$が非負であること ReLUの場合を考えてみると, 負の値を0とすることで, 不要な値・誤った情報を掻き消すことができる非線形な重み付け ReLUよりもsoftmaxのほ YuWd (Yuiga Wada) 論文【論文メモ】Double Descent https://yuiga.dev/blog/en/ja/posts/double_descent/ Fri, 15 Apr 2022 01:01:07 +0900 Fri, 15 Apr 2022 01:01:07 +0900 https://yuiga.dev/blog/en/ja/posts/double_descent/ U字からlossが落ちていく減少例えばシンプルな構造のニューラルネットワークと複雑なニューラルネットワークがあったとします。前者については従来から言われているように"under-fitting"と"over-fitting"からなるU字型の特性が観測できますが、後者は複雑にしてい YuWd (Yuiga Wada) featured image 論文【論文メモ】Deformable Conv https://yuiga.dev/blog/en/ja/posts/deformable_conv/ Thu, 14 Apr 2022 17:05:29 +0900 Thu, 14 Apr 2022 17:05:29 +0900 https://yuiga.dev/blog/en/ja/posts/deformable_conv/ [**** https://gyazo.com/e4c2ed2a441c686afa02f2e0625b373f ] https://arxiv.org/abs/1703.06211 YuWd (Yuiga Wada) 論文【論文メモ】Fine-tuning CNN Image Retrieval with No Human Annotation https://yuiga.dev/blog/en/ja/posts/fine-tuning_cnn_image_retrieval_with_no_human_annotation/ Mon, 11 Apr 2022 13:34:44 +0900 Mon, 11 Apr 2022 13:34:44 +0900 https://yuiga.dev/blog/en/ja/posts/fine-tuning_cnn_image_retrieval_with_no_human_annotation/ todo https://arxiv.org/abs/1711.02512 YuWd (Yuiga Wada) 論文【論文メモ】CvT https://yuiga.dev/blog/en/ja/posts/cvt/ Mon, 11 Apr 2022 11:14:48 +0900 Mon, 11 Apr 2022 11:14:48 +0900 https://yuiga.dev/blog/en/ja/posts/cvt/ Convは高いロバスト性を持つ例えば画像のシフトに強かったり ⇒ ViTにConvを導入 Conv自体はパッチ分割 & 線形変換と同じ CvTはパッチ同士が重なり合う Positional Encodingは行わない Convが同じことをやってるらしい … ? How Much Position Information Do Convolutional Neural Networks Encode? YuWd (Yuiga Wada) featured image 論文【論文メモ】SmeLU https://yuiga.dev/blog/en/ja/posts/smelu/ Thu, 07 Apr 2022 00:32:10 +0900 Thu, 07 Apr 2022 00:32:10 +0900 https://yuiga.dev/blog/en/ja/posts/smelu/ ReLUの原点での急な変化を, 2次関数で補完することでスムーズにした活性化関数 SmeLU (Smooth ReLU)を提案リコメンデーションシステムにおいては, 再現性の低さは致命的となる ReLU は勾配がジャンプするので(sudden jump), 損失平面に局所領域ができてしまうそのため, 遷移領域が狭まる遷移領域が狭まってしまうと局所的な遷移しかしないので, モデ YuWd (Yuiga Wada) featured image 論文【論文メモ】ConvNext https://yuiga.dev/blog/en/ja/posts/convnext/ Wed, 30 Mar 2022 16:11:00 +0900 Wed, 30 Mar 2022 16:11:00 +0900 https://yuiga.dev/blog/en/ja/posts/convnext/ ResNetを現代風に DepthWiseにしたり (PointWise・Depthwise) カーネルサイズ変えたり bottleneck内のレイヤーの順番を変えたり BNからLNにしたり地味に実装でtimmつかてますねん https://github.com/facebookresearch/ConvNeXt/blob/d1fa8f6fef0a165b27399986cc2bdacc92777e40/models/convnext.py YuWd (Yuiga Wada) featured image 論文【論文メモ】DeepNet https://yuiga.dev/blog/en/ja/posts/deepnet/ Wed, 30 Mar 2022 13:00:12 +0900 Wed, 30 Mar 2022 13:00:12 +0900 https://yuiga.dev/blog/en/ja/posts/deepnet/ モデル更新量を見るモデル更新後, 出力がどの程度変化したか具体的には、まず、18レイヤーの通常の Post-LN トランスフォーマーを訓練させた場合、訓練が不安定であり、検証セットの損失関数の値（ロス）が収束しないことを示しています。このとき、「モデル更新量 (model update)」、すなわち、初期化時に比べて、モデルの更新後に、出力の値がどの YuWd (Yuiga Wada) featured image 論文【論文メモ】Attention Bottlenecks for Multimodal Fusion https://yuiga.dev/blog/en/ja/posts/attention_bottlenecks_for_multimodal_fusion/ Wed, 30 Mar 2022 13:00:03 +0900 Wed, 30 Mar 2022 13:00:03 +0900 https://yuiga.dev/blog/en/ja/posts/attention_bottlenecks_for_multimodal_fusion/ https://arxiv.org/abs/2107.00135 YuWd (Yuiga Wada) 論文【論文メモ】Don't Decay the Learning Rate, Increase the Batch Size https://yuiga.dev/blog/en/ja/posts/dont_decay_the_learning_rate_increase_the_batch_size/ Wed, 30 Mar 2022 12:59:52 +0900 Wed, 30 Mar 2022 12:59:52 +0900 https://yuiga.dev/blog/en/ja/posts/dont_decay_the_learning_rate_increase_the_batch_size/ YuWd (Yuiga Wada) 論文