k8s
【k8s・DDP】クラスタ上でのtorch.loadが遅い
· ☕ 3 min read
概要 巨大なembeddingをチャンクで外部に保存し,DDP(Distributed Data Parallel)を使った学習時に各GPUで読み込みたい そんなときtorch.load(path, map_location=f"cuda:{rank}")にかかる時間の分散が大きい場合がある 前提: torch.loa ...