この記事では、vLLMで複数GPUを使ったテンソル並列処理（tensor parallelism）を設定した際にプロセスがハングする問題について、海外コミュニティでの解決策を要約して解説します。

1. どんな問題（エラー）が発生したか？

2. 結論（解決策）

GPU間のNCCL通信設定の問題またはGPU構成の非対称性が原因です。環境変数の設定と通信テストで解決します。

NCCL通信をテスト

python -c "
import torch, torch.distributed as dist
dist.init_process_group('nccl')
print('NCCL OK')
"

環境変数を設定

export NCCL_DEBUG=WARN
export NCCL_P2P_DISABLE=0
export CUDA_VISIBLE_DEVICES=0,1

–enforce-eagerでデバッグ
```
vllm serve model_name --tensor-parallel-size 2 --enforce-eager
```
CUDA Graphを無効にしてエラーを特定します。

RTX 5070 TiとRTX 5080のように異なるGPU間でのテンソル並列は非対応です。同一モデルのGPU同士を使用してください。PCIeスロットの帯域幅も性能に影響します。NVLinkがある場合はNCCL通信が高速化されます。

本記事は海外コミュニティの複数のディスカッションを要約・再構成したものです。

ローカル環境のGPUトラブルが頻発する場合、ハードウェアの見直しも検討してみてください：

ローカル環境でGPUトラブルが頻発する場合、クラウドGPUサービスの利用も検討してみてください。環境構築の手間なく、すぐにAI開発を始められます。