PyTorch on 行李の底に収めたり[YuWd]

PyTorch on 行李の底に収めたり[YuWd] https://yuiga.dev/blog/en/tags/pytorch/ Recent content in PyTorch on 行李の底に収めたり[YuWd] Hugo -- gohugo.io en ©2024, All Rights Reserved Thu, 18 Jan 2024 02:35:54 +0900 【NeRF】動画から点群・メッシュ・任意視点動画を生成してみる https://yuiga.dev/blog/en/ja/posts/nerf%E5%8B%95%E7%94%BB%E3%81%8B%E3%82%89%E7%82%B9%E7%BE%A4%E3%83%A1%E3%83%83%E3%82%B7%E3%83%A5%E4%BB%BB%E6%84%8F%E8%A6%96%E7%82%B9%E5%8B%95%E7%94%BB%E3%82%92%E7%94%9F%E6%88%90%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B/ Thu, 18 Jan 2024 02:35:54 +0900 Thu, 18 Jan 2024 02:35:54 +0900 https://yuiga.dev/blog/en/ja/posts/nerf%E5%8B%95%E7%94%BB%E3%81%8B%E3%82%89%E7%82%B9%E7%BE%A4%E3%83%A1%E3%83%83%E3%82%B7%E3%83%A5%E4%BB%BB%E6%84%8F%E8%A6%96%E7%82%B9%E5%8B%95%E7%94%BB%E3%82%92%E7%94%9F%E6%88%90%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B/ NeRFを使えば，点群・メッシュ・任意視点動画が作れるのでやってみた今回は愛飲するRedBullを被写体にしてみるヨ！任意視点動画 (GIF版) 任意視点動画 (動画版) Your browser does not support the video tag. 点群 NeRFとnerfstudioについて簡潔に説明ボリュームレンダリングある点 $x$と方向 $d$を入力として $(c,\sigma)$を出力 YuWd (Yuiga Wada) featured image 論文機械学習 PyTorch CV 【k8s・DDP】クラスタ上でのtorch.loadが遅い https://yuiga.dev/blog/en/ja/posts/k8sddp%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E4%B8%8A%E3%81%A7%E3%81%AEtorch.load%E3%81%8C%E9%81%85%E3%81%84/ Sun, 17 Sep 2023 09:58:05 +0900 Sun, 17 Sep 2023 09:58:05 +0900 https://yuiga.dev/blog/en/ja/posts/k8sddp%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E4%B8%8A%E3%81%A7%E3%81%AEtorch.load%E3%81%8C%E9%81%85%E3%81%84/ 概要巨大なembeddingをチャンクで外部に保存し，DDP(Distributed Data Parallel)を使った学習時に各GPUで読み込みたいそんなときtorch.load(path, map_location=f"cuda:{rank}")にかかる時間の分散が大きい場合がある前提: torch.loa YuWd (Yuiga Wada) k8s PyTorch post 【PyTorch】「CUDA error: device-side assert triggered」解決の手引き https://yuiga.dev/blog/en/ja/posts/pytorchcuda_error_device-side_assert_triggered_%E8%A7%A3%E6%B1%BA%E3%81%AE%E6%89%8B%E5%BC%95%E3%81%8D/ Sun, 23 Oct 2022 04:49:42 +0900 Sun, 23 Oct 2022 04:49:42 +0900 https://yuiga.dev/blog/en/ja/posts/pytorchcuda_error_device-side_assert_triggered_%E8%A7%A3%E6%B1%BA%E3%81%AE%E6%89%8B%E5%BC%95%E3%81%8D/ はじめに PyTorchにて, “RuntimeError: CUDA error: device-side assert triggered"というエラーに出くわすことがあるネットに転がってるモデルで発生すると特に厄介である (自分が作った沼ではないので…) またMAEでのマスク処理のような, テクニカルな処理を行う場合などにも頻発再現性が取れず, 出力されるエラー内容も二転三転. 一定 YuWd (Yuiga Wada) python PyTorch post PyTorch 高速化 https://yuiga.dev/blog/en/ja/posts/pytorch_%E9%AB%98%E9%80%9F%E5%8C%96/ Fri, 22 Apr 2022 19:39:45 +0900 Fri, 22 Apr 2022 19:39:45 +0900 https://yuiga.dev/blog/en/ja/posts/pytorch_%E9%AB%98%E9%80%9F%E5%8C%96/ https://qiita.com/sugulu_Ogawa_ISID/items/62f5f7adee083d96a587#31-ampautomatic-mixed-precision機能について YuWd (Yuiga Wada) PyTorch post Automatic Mixed Precision https://yuiga.dev/blog/en/ja/posts/automatic_mixed_precision/ Fri, 22 Apr 2022 18:00:31 +0900 Fri, 22 Apr 2022 18:00:31 +0900 https://yuiga.dev/blog/en/ja/posts/automatic_mixed_precision/ float16とfloat32を混ぜて(Mixed)計算することで, GPUのMEM使用率を抑えることができる計算スピードも幾分速くなるらしい略してamp https://qiita.com/Sosuke115/items/40265e6aaf2e414e2fea https://tawara.hatenablog.com/entry/2021/05/31/220936 YuWd (Yuiga Wada) PyTorch post torch.view https://yuiga.dev/blog/en/ja/posts/torch.view/ Fri, 08 Apr 2022 21:15:20 +0900 Fri, 08 Apr 2022 21:15:20 +0900 https://yuiga.dev/blog/en/ja/posts/torch.view/ 同じ順序でメモリ上に展開されてないとダメだから注意 1 2 3 4 >>> torch.t(x).view(-1, 2) Traceback (most recent call last): File "<stdin>", line 1, in <module> RuntimeError: invalid argument 2: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Call .contiguous() before .view(). at /Users/soumith/code/builder/wheel/pytorch-src/aten/src/TH/generic/THTensor.cpp:237 1 2 3 4 5 6 x = torch.Tensor([[[ 1., 5., 9.], [ 2., 6., 10.], [ 3., 7., 11.], [ 4., 8., 12.]]]) x = x.unsqueeze(0) print(x.transpose(-1,-2).view(1,-1,2)) ↑ これだとメモリ上に展開されてないからダメ 1 2 3 x = torch.Tensor([[1,2,3,4],[5,6,7,8],[9,10,11,12]]) x = x.unsqueeze(0).transpose(-1,-2) print(x.transpose(-1,-2).view(1,-1,2)) ↑こっちだとOK YuWd (Yuiga Wada) PyTorch post torchのテンソル積 https://yuiga.dev/blog/en/ja/posts/torch%E3%81%AE%E3%83%86%E3%83%B3%E3%82%BD%E3%83%AB%E7%A9%8D/ Fri, 01 Apr 2022 23:38:39 +0900 Fri, 01 Apr 2022 23:38:39 +0900 https://yuiga.dev/blog/en/ja/posts/torch%E3%81%AE%E3%83%86%E3%83%B3%E3%82%BD%E3%83%AB%E7%A9%8D/ 三次元 $\times $三次元の行列１つ目をバッチサイズとして, バッチ単位で行列積 torch.bmm 4次元 $\times $3次元の行列 (j×1×n×m) と (kxm×p)の積は(j,k,n,p)となるバッチなど、行列以外の次元は、ブロードキャストされる。そのため、行列以外の次元はブロードキャストできるものでなければならない。例えば、tensor1が(j×1×n× YuWd (Yuiga Wada) featured image PyTorch post torch.bmm https://yuiga.dev/blog/en/ja/posts/torch.bmm/ Fri, 01 Apr 2022 01:15:05 +0900 Fri, 01 Apr 2022 01:15:05 +0900 https://yuiga.dev/blog/en/ja/posts/torch.bmm/ バッチサイズ単位で行列積 @も同様 https://pytorch.org/docs/stable/generated/torch.bmm.html#torch.bmm YuWd (Yuiga Wada) PyTorch post PyTorchとメモリ https://yuiga.dev/blog/en/ja/posts/pytorch%E3%81%A8%E3%83%A1%E3%83%A2%E3%83%AA/ Tue, 29 Mar 2022 17:30:48 +0900 Tue, 29 Mar 2022 17:30:48 +0900 https://yuiga.dev/blog/en/ja/posts/pytorch%E3%81%A8%E3%83%A1%E3%83%A2%E3%83%AA/ 必要なメモリ量必要メモリ量(byte) = (ニューロンの数 × Batch Size ＋パラメータ数) × 2 (data & grad) × 4(byte) https://nori-life-log.com/nnの学習で必要なgpuメモリを算出する重みを固定(freeze) 1 2 3 # freeze all layers for param in model.parameters(): param.requires_grad = False YuWd (Yuiga Wada) PyTorch post einsum https://yuiga.dev/blog/en/ja/posts/einsum/ Fri, 18 Mar 2022 18:38:53 +0900 Fri, 18 Mar 2022 18:38:53 +0900 https://yuiga.dev/blog/en/ja/posts/einsum/ アインシュタインの縮約記法テンソル積を書くと大量の $\Sigma$が出てきてうざいなので, $\Sigma$を省略しよう, というのが事の始まり $\sum_{j} a_{i,j}b_{j,k}$ なら ij,jk → ik プログラム的に考えれば, 単純にfor を外しただけ例えばドット積 z[i,j](https://scrapbox.io/yuwd/i%2Cj) += x[i,j](https://scrapbox.io/yuwd/i%2Cj) * y[i,j](https://scrapbox.io/yuwd/i%2Cj) np.einsum("ij,ij->ij", x, y) 内積 z[j,k](https://scrapbox.io/yuwd/j%2Ck) += x[j,i](https://scrapbox.io/yuwd/j%2Ci) * y[i,k](https://scrapbox.io/yuwd/i%2Ck) np.einsum("ji,ik->jk", x, y) 軸の入れ替えなどでも使える y = torch.einsum('nchw->nhwc', y).detach().cpu() 実際は遅いからやめたほうが良さそう YuWd (Yuiga Wada) PyTorch post world_size https://yuiga.dev/blog/en/ja/posts/world_size/ Fri, 18 Mar 2022 17:07:28 +0900 Fri, 18 Mar 2022 17:07:28 +0900 https://yuiga.dev/blog/en/ja/posts/world_size/ world_size プロセス数 rank どのプロセスなのかを指定 YuWd (Yuiga Wada) PyTorch post 重みの初期化 https://yuiga.dev/blog/en/ja/posts/%E9%87%8D%E3%81%BF%E3%81%AE%E5%88%9D%E6%9C%9F%E5%8C%96/ Sat, 12 Mar 2022 23:55:53 +0900 Sat, 12 Mar 2022 23:55:53 +0900 https://yuiga.dev/blog/en/ja/posts/%E9%87%8D%E3%81%BF%E3%81%AE%E5%88%9D%E6%9C%9F%E5%8C%96/ nn.init.hogehoge() で初期化できる例 nn.init.xavier_uniform_(ln.weight) # Xavierの初期値 PyTorchの場合, デフォルトはHe YuWd (Yuiga Wada) 機械学習 PyTorch post RuntimeError: reciprocal_cuda not implemented for ComplexHalf https://yuiga.dev/blog/en/ja/posts/runtimeerror_reciprocal_cuda_not_implemented_for_complexhalf/ Mon, 01 Jan 0001 00:00:00 +0000 https://yuiga.dev/blog/en/ja/posts/runtimeerror_reciprocal_cuda_not_implemented_for_complexhalf/ 1 C = C * (1. - dtA/2).reciprocal() * dt.unsqueeze(-1) # or * dtA / A ComplexHalf = torch.complex32のこと ComplexHalfにはreciprocal_cudaが実装されていないらしい逆数を求める際の精度の問題？ AMPやfp16で計算しようとすると，本来64bitのcomplexで計算されるはずの項が32bitになって，逆数が計算できなくなる YuWd (Yuiga Wada) PyTorch Computer post