問題の概要：PyTorch DDPの設定難しさと頻出エラー

PyTorchのDistributed Data Parallel (DDP)は、複数のGPUやマシンを用いて深層学習のトレーニングを高速化する強力な機能です。しかし、分散処理の性質上、設定が複雑で、初心者から中級者までが頻繁に遭遇する特定のエラーが存在します。特に、マルチプロセス通信の初期化、環境変数の設定、データの分割方法に関する誤りが原因で、以下のようなエラーメッセージに直面することが多くあります。

RuntimeError: Address already in use
RuntimeError: NCCL error (例: unhandled system error)
RuntimeError: Expected to have finished reduction in the prior iteration
特定のGPUのみが使用され、他は0%利用率のままになる
プロセスがハングアップ（応答停止）する

本記事では、これらのエラーの根本原因を解説し、シングルノード（1台のマシン内の複数GPU）でのDDP設定をステップバイステップで説明します。

原因の解説：なぜこれらのエラーが発生するのか？

DDPの核心は、各GPU上で独立したPythonプロセスを起動し、それらがバックエンド（NCCL、Glooなど）を通じて勾配を同期させることにあります。主要なエラーの原因は以下の通りです。

1. ポートの競合（Address already in use）

マスタープロセスが他のプロセスとの通信のために開くポートが、既に別のアプリケーションや前回のトレーニングジョブの残存プロセスによって使用されている場合に発生します。DDPはデフォルトで29500番ポートを使用します。

2. NCCL関連エラー

NVIDIAの集合通信ライブラリNCCLに関するエラーです。原因は多岐に渡ります。

環境変数の不備: NCCL_DEBUG=INFOなどのデバッグ設定がされていない。
ネットワークトポロジーの問題: マルチノード設定時のファイアウォールやネットワーク設定。
GPUの非一様性: 異なるアーキテクチャのGPUを混在させている（例: V100とRTX 3090）。

3. データの不適切な分割

DDPはDistributedSamplerを使用して、データセットを各プロセス（GPU）に均等に分散させます。このSamplerを適切に使用せず、すべてのプロセスに全データを渡してしまうと、メモリ不足や計算の重複、時にはデッドロックを引き起こします。

4. プロセスグループの初期化忘れ

torch.distributed.init_process_group()を呼び出さずにDDPモデルを作成しようとすると、確実にエラーになります。

解決方法：ステップバイステップ設定ガイド

ここでは、シングルノード・マルチGPU環境での、エラーを回避する確実なDDP実装手順を紹介します。

ステップ1: トレーニングスクリプトの骨格作成

まず、コマンドライン引数からローカルランク（プロセス番号）とワールドサイズ（総プロセス数）を受け取れるようにします。

import argparse
import torch
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.nn.parallel import DistributedDataParallel as DDP

def main(rank, world_size, args):
    """メインのトレーニング関数（各プロセスで実行される）"""
    # ステップ2: プロセスグループの初期化
    setup(rank, world_size)

    # ステップ3: モデルをDDPでラップ
    model = YourModel().to(rank)
    ddp_model = DDP(model, device_ids=[rank])

    # ステップ4: DistributedSamplerでデータローダーを準備
    dataset = YourDataset()
    sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, shuffle=True)
    dataloader = DataLoader(dataset, batch_size=args.batch_size, sampler=sampler)

    # トレーニングループ
    for epoch in range(args.epochs):
        sampler.set_epoch(epoch) # 重要！エポックごとにシャッフルを再現可能に
        for batch in dataloader:
            # ... トレーニングステップ ...
            pass

    # ステップ5: プロセスグループのクリーンアップ
    cleanup()

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument('--world_size', type=int, default=torch.cuda.device_count())
    args = parser.parse_args()
    mp.spawn(main, args=(args.world_size, args), nprocs=args.world_size, join=True)

ステップ2: 初期化とクリーンアップ関数の定義

プロセスグループの設定と後片付けを行う関数は分離しておくと管理しやすいです。

def setup(rank, world_size):
    """DDPのセットアップを行う"""
    # 環境変数を設定（NCCLエラー解析に有用）
    import os
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '29500' # 競合したら変更する

    # プロセスグループを初期化
    dist.init_process_group(
        backend="nccl", # NVIDIA GPUなら"nccl"が最速
        init_method="env://",
        rank=rank,
        world_size=world_size
    )
    # 各プロセスのデフォルトGPUを設定
    torch.cuda.set_device(rank)

def cleanup():
    """プロセスグループを破棄する"""
    dist.destroy_process_group()

ステップ3: 主要エラーへの対処法

「Address already in use」エラー
ポート29500が使用中です。以下のいずれかで解決します。

# 方法1: 別の空いているポートを指定
os.environ['MASTER_PORT'] = '29501'

# 方法2: 使用中のプロセスを強制終了（開発環境で）
# ターミナルで実行: `sudo lsof -ti:29500 | xargs kill -9`
# または: `pkill -f "your_training_script.py"`

NCCLエラーが発生した場合
まずデバッグ情報を出力させ、原因を特定します。スクリプトの最初に以下を追加。

import os
os.environ['NCCL_DEBUG'] = 'INFO'  # または 'WARN', 'ERROR'
os.environ['NCCL_IB_DISABLE'] = '1' # InfiniBandを使用しない場合、問題を回避できることがある

エラーメッセージにunhandled system errorと出る場合、GPUメモリ不足やCUDAドライバの問題も考えられます。torch.cuda.empty_cache()の呼び出しやドライバの再インストールを検討してください。

特定のGPUのみが使われる問題
DDP(model, device_ids=[rank])とtorch.cuda.set_device(rank)の設定が正しいか確認してください。また、モデルをCPUに作成した後、.to(rank)で適切なGPUに送っているか確認します。

コード例：完全な動作可能な最小実装

MNIST分類タスクを用いた、シンプルだが完全なDDPトレーニングスクリプトの例です。

# train_ddp.py
import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.nn.parallel import DistributedDataParallel as DDP
from torch.utils.data import DataLoader, DistributedSampler
from torchvision import datasets, transforms
import os

class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv = nn.Conv2d(1, 10, kernel_size=5)
        self.fc = nn.Linear(1440, 10)
    def forward(self, x):
        x = torch.relu(self.conv(x))
        x = x.view(x.size(0), -1)
        return self.fc(x)

def train(rank, world_size):
    # セットアップ
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '12355'
    dist.init_process_group("nccl", rank=rank, world_size=world_size)
    torch.cuda.set_device(rank)

    # モデル、オプティマイザ、DDP
    model = SimpleCNN().to(rank)
    ddp_model = DDP(model, device_ids=[rank])
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.01)

    # データローダーとSampler
    dataset = datasets.MNIST('./data', train=True, download=True,
                             transform=transforms.ToTensor())
    sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank)
    dataloader = DataLoader(dataset, batch_size=64, sampler=sampler)

    # トレーニングループ（1エポックのみ）
    ddp_model.train()
    for data, target in dataloader:
        data, target = data.to(rank), target.to(rank)
        optimizer.zero_grad()
        output = ddp_model(data)
        loss = nn.functional.cross_entropy(output, target)
        loss.backward()
        optimizer.step()
        if rank == 0:
            print(f'Rank {rank}, Loss: {loss.item()}')

    dist.destroy_process_group()

if __name__ == "__main__":
    world_size = torch.cuda.device_count()
    print(f"Using {world_size} GPUs!")
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)

実行コマンド:

python train_ddp.py

まとめ・補足情報

PyTorch DDPは、一度正しいパターンを理解すれば、強力で安定した分散トレーニングを実現できます。設定時のポイントを以下にまとめます。

初期化順序: init_process_group() → モデル.to(device) → DDP()の順は厳守。
DistributedSamplerの必須化: データの重複/漏れを防ぐため、必ず使用する。エポックごとにset_epochを呼ぶ。
バッチサイズの認識: DDPでは、DataLoaderのバッチサイズは「GPUあたり」のサイズです。実効バッチサイズは「バッチサイズ × ワールドサイズ」になります。
ロギング: 複数プロセスが同時にprintすると出力が乱れるため、if dist.get_rank() == 0:でマスタープロセスのみ実行するのが一般的です。
次のステップ: シングルノードに慣れたら、マルチノード設定（MASTER_ADDRにIPアドレス指定）や、混合精度訓練（AMP）、勾配蓄積との組み合わせを学ぶと良いでしょう。

エラーに遭遇した際は、まずNCCL_DEBUG=INFOを設定して詳細なログを確認し、ポート競合やデータローダーの問題など、基本的な設定ステップから順に確認することが早期解決の近道です。