【CUDA】GPUの計算能力(Compute Capability)を確認する方法：環境構築エラー「no kernel image is available」の解決策

問題の概要：CUDA環境構築時の「計算能力不一致」エラー

CUDAを使用したAI開発、特にPyTorchやTensorFlowなどのディープラーニングフレームワークをインストール・実行する際、以下のようなエラーに遭遇することがあります。

RuntimeError: CUDA error: no kernel image is available for execution on the device

torch.cuda.is_available() が False を返す

This TensorFlow binary is not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA (しかし、CUDA関連の警告が表示される)

これらのエラーの根本的な原因の一つは、インストールしたCUDA Toolkitやフレームワークのバイナリが、お使いのGPUの「計算能力(Compute Capability)」に対応していないことです。CUDA対応GPUは世代やモデルによって計算能力のバージョンが異なり、フレームワークは特定の計算能力範囲向けに事前コンパイルされています。自分のGPUの計算能力を確認せずにパッケージをインストールすると、この不一致が発生します。本記事では、この問題を解決するための第一歩として、GPUの計算能力を確認する複数の方法を詳しく解説します。

原因の解説：計算能力(Compute Capability)とは？

Compute Capability（CC）は、NVIDIA GPUの世代とアーキテクチャを表すバージョン番号です。メジャー・マイナーバージョン（例: 7.5, 8.6）の形式で表され、ハードウェアがサポートする機能（コア数、メモリ構成、特定の命令セットなど）を定義します。例えば、RTX 30シリーズの多くはCC 8.6、RTX 40シリーズはCC 8.9を持ちます。

PyTorchやTensorFlowなどのフレームワークは、パフォーマンスを最適化するため、特定の計算能力向けに事前コンパイルされたバイナリ（「ホイール」ファイル）として配布されることが一般的です。公式サイトから pip install torch とする場合、それは一般的な計算能力範囲（例: 3.7から8.6まで）に対応した「汎用バイナリ」がインストールされます。しかし、お使いのGPUがその範囲外の新しい計算能力（例: CC 8.9）を持つ場合、または逆に非常に古い計算能力を持つ場合、「カーネルイメージが利用できない」というエラーが発生するのです。

この問題を解決するには、まず自分のGPUの正確な計算能力を把握し、それに合ったバージョンのフレームワークをインストールする必要があります。

解決方法：計算能力を確認する4つのステップ

ここでは、コマンドラインから確実に確認できる方法を中心に、4つのアプローチを紹介します。

方法1：nvidia-smi と CUDA公式リストによる確認（推奨）

これは最も基本的で確実な方法です。まず、GPUモデル名を確認し、NVIDIAの公式ドキュメントで対応する計算能力を調べます。

手順:

コマンドプロンプト（Windows）またはターミナル（Linux/macOS）を開きます。
以下のコマンドを実行して、GPUの詳細情報を取得します。

nvidia-smi

出力例：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.154.05   Driver Version: 535.154.05   CUDA Version: 12.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce RTX 4070 Ti    On   | 00000000:01:00.0  On |                  N/A |
| 30%   45C    P2    70W / 285W |    2000MiB / 12288MiB |      0%      Default |

この例では、GPU名が「NVIDIA GeForce RTX 4070 Ti」であることがわかります。

ブラウザで「NVIDIA CUDA GPU 計算能力一覧」などと検索し、NVIDIAの公式ページ（例: https://developer.nvidia.com/cuda-gpus）にアクセスします。
ページ内のテーブルから、自分のGPUモデル名（この例では「GeForce RTX 4070 Ti」）を探し、対応する「Compute Capability」の値を確認します。RTX 4070 Tiの計算能力は「8.9」です。

方法2：CUDAサンプルプログラム「deviceQuery」を使用する（最も正確）

CUDA Toolkitをインストールしている場合、付属するサンプルプログラムで詳細なGPU情報を取得できます。

手順:

CUDA Toolkitのサンプルコードをビルドするための環境を整えます（make や Visual Studio が必要）。
サンプルディレクトリに移動します。典型的なパスは以下の通りです。
Windows: C:ProgramDataNVIDIA CorporationCUDA SamplesvXX.Xbinwin64Release
Linux: /usr/local/cuda/samples/bin/x86_64/linux/release
コマンドラインで以下のコマンドを実行します。

# Windows
deviceQuery.exe

# Linux
./deviceQuery

出力例（抜粋）：

Detected 1 CUDA Capable device(s)

Device 0: "NVIDIA GeForce RTX 4070 Ti"
  CUDA Driver Version / Runtime Version          12.2 / 12.2
  CUDA Capability Major/Minor version number:    8.9  <-- これが計算能力
  Total amount of global memory:                 12288 MBytes
  (060) Multiprocessors, (128) CUDA Cores/MP:    7680 CUDA Cores

「CUDA Capability Major/Minor version number: 8.9」の行が、お使いのGPUの計算能力です。この方法が最も直接的な確認方法です。

方法3：PyTorch / TensorFlow からPythonコードで確認する

すでにフレームワークが部分的に動作する環境であれば、Pythonスクリプトから確認することができます。

PyTorch を使用する場合:

import torch
if torch.cuda.is_available():
    gpu_count = torch.cuda.device_count()
    for i in range(gpu_count):
        prop = torch.cuda.get_device_properties(i)
        print(f"GPU {i}: {prop.name}")
        print(f"  Compute Capability: {prop.major}.{prop.minor}")
else:
    print("CUDA is not available.")

出力例:

GPU 0: NVIDIA GeForce RTX 4070 Ti
  Compute Capability: 8.9

TensorFlow 2.x を使用する場合:

import tensorflow as tf
from tensorflow.python.client import device_lib

devices = device_lib.list_local_devices()
gpu_devices = [d for d in devices if d.device_type == 'GPU']
for gpu in gpu_devices:
    print(gpu.physical_device_desc)
    # 記述文字列から計算能力を探す場合が多い。直接的なAPIはない。

方法4：NVIDIA提供のコマンドラインツール「nvidia-ctk」を使用する（Linux）

比較的新しい方法ですが、NVIDIAの管理ツールキットに含まれるコマンドで確認できます。

nvidia-ctk cuda info

出力には、GPUごとの詳細な情報、其中包括される計算能力が表示されます。

計算能力を確認した後の具体的なアクション

自分のGPUの計算能力（例: 8.9）がわかったら、以下のように問題を解決します。

ケース1: 計算能力がフレームワークの標準範囲より新しい場合（例: CC 8.9）
PyTorchの場合は、計算能力8.9に対応した特別なバイナリをインストールする必要があります。公式サイトのGet Startedページで、「Compute Platform」を cu121（CUDA 12.1）などと選択した後、表示される pip install コマンドの末尾に --index-url https://download.pytorch.org/whl/cu121 が付いたものを使用します。最新版のPyTorchは多くの場合、新しい計算能力をサポートしています。もしサポート外の場合は、ソースからのビルドを検討するか、NVIDIAが提供するDockerイメージの利用を検討します。

ケース2: 計算能力が古い場合（例: CC 3.5）
公式のプリコンパイル済みバイナリは、古い計算能力をサポートしていない可能性が高いです。この場合は、ソースコードからフレームワークをビルドするか、古いバージョンのフレームワーク（そのGPUをサポートしていた最終バージョン）を探してインストールする必要があります。ただし、セキュリティや機能面で制限が生じるため、GPUのアップグレードを検討することが現実的な解決策となることも多いです。

まとめ・補足情報

CUDA環境構築時の「no kernel image」エラーは、GPUの計算能力とフレームワークバイナリの不一致が主な原因です。この問題を解決する第一歩は、nvidia-smi でGPUモデルを特定し、公式リストまたは deviceQuery プログラムで正確な計算能力を確認することです。

重要なポイント:

常に NVIDIAドライバ、CUDA Toolkit、ディープラーニングフレームワークのバージョン互換性を確認してください。フレームワークの公式インストールガイドが最良の情報源です。
Docker/NVIDIA Container Toolkitを利用することで、正しい計算能力が設定された環境を簡単に構築できる場合があります。
クラウドサービス（AWS EC2, Google Colab等）を利用する場合は、インスタンスタイプ（例: T4, V100, A100）から計算能力を調べ、それに合った環境を選択できます。

自分の開発環境の基盤となるGPUの仕様を正確に理解することは、AI開発におけるトラブルシューティングの基本であり、時間の節約とストレスの軽減に大きく役立ちます。本記事で紹介した方法を活用し、スムーズなCUDA環境構築を実現してください。