【RunPod】GPUインスタンスでCUDAが認識されない時の確認手順

この記事では、RunPodでGPUインスタンスを起動した際にCUDAが認識されず、AIツールがGPUを使えない問題について解説します。

1. どんな問題（エラー）が発生したか？

テンプレートの選択ミスまたはDockerコンテナ内のCUDA環境設定の問題が原因です。

インスタンスのGPU割り当てを確認
RunPodダッシュボードでインスタンスの「GPU」欄に正しいGPU名が表示されているか確認します。
テンプレートを確認
「RunPod PyTorch」や「RunPod CUDA」テンプレートを使用してください。カスタムDockerイメージの場合はNVIDIAベースイメージを使用します。

コンテナ内でGPUを確認

nvidia-smi
python -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))"

環境変数を確認
```
echo $CUDA_VISIBLE_DEVICES
echo $NVIDIA_VISIBLE_DEVICES
```
空白や不正な値が設定されている場合は修正します。

RunPodのCommunity Cloudは価格が安い代わりに、GPUの空き状況によりインスタンスが中断される可能性があります。本番用途ではSecure Cloudの利用を検討してください。

本記事は海外コミュニティの複数のディスカッションを要約・再構成したものです。

本記事の手順を快適に進めるための推奨スペック：

ハードウェアの購入・セットアップなしで、すぐにGPU環境を使えるクラウドサービスがおすすめです。