【CUDA】GPUメモリ不足エラーの意外な原因！CUDAメモリフラグメンテーションの検出・解消法

問題の概要：CUDA out of memoryエラーの意外な原因

深層学習モデルの学習や推論を実行中に、以下のようなエラーメッセージが表示されたことはありませんか？

RuntimeError: CUDA out of memory. Tried to allocate 2.00 GiB (GPU 0; 10.00 GiB total capacity; 5.50 GiB already allocated; 0 bytes free; 5.80 GiB reserved in total by PyTorch)

一見、単純にGPUメモリが不足しているように見えます。しかし、nvidia-smiコマンドで確認すると、利用可能な空きメモリが十分にあるにもかかわらず、このエラーが発生することがあります。この矛盾の背後にある主要な原因の一つが、CUDAメモリフラグメンテーション（断片化）です。

メモリフラグメンテーションとは、メモリの確保と解放を繰り返すうちに、空きメモリが小さな断片に分かれて散在してしまう現象です。結果として、合計の空き容量は十分あっても、連続した大きなメモリブロックを確保できなくなり、「メモリ不足」エラーが発生します。

原因の解説：なぜCUDAメモリはフラグメンテーションするのか？

CUDAメモリの管理は、PyTorchやTensorFlowなどのフレームワークに組み込まれたアロケータ（メモリ割り当て器）によって行われます。このアロケータは、パフォーマンスを最適化するために、一度確保したメモリをすぐにGPUに返さず、キャッシュ（プール）として保持することがあります。

以下のようなコードの実行パターンが、フラグメンテーションを引き起こす典型的な例です。

import torch

# 様々なサイズのテンソルを繰り返し作成・削除するループ
for i in range(1000):
    # サイズが毎回変わるテンソルを作成
    size = torch.randint(100, 1000, (1,)).item()
    x = torch.randn(size, size, device='cuda')
    # 何らかの計算
    y = x * 2
    # 明示的に削除はしないが、ループごとにxはスコープを外れる
    # アロケータは解放されたメモリをキャッシュするが、サイズがバラバラだと断片化が進む

フラグメンテーションを悪化させる要因

1. 可変サイズのバッチ処理: データの前処理でサンプルごとにサイズが異なり、バッチサイズが可変になる場合。
2. モデルの部分的・段階的な実行: 大きなモデルを部分ごとにメモリにロードして実行する場合。
3. メモリプールの挙動: フレームワークのアロケータが解放済みメモリを再利用のために保持するため、OS（ホスト）には返却されず、フラグメント化した状態が固定化される。

解決方法：検出と解消のステップバイステップガイド

ステップ1：メモリフラグメンテーションの検出

まず、問題が本当にフラグメンテーションなのかを確認します。PyTorchを使用している場合、以下のコードで詳細なメモリ統計を取得できます。

import torch
# 現在のメモリ統計を表示
print(torch.cuda.memory_summary())

出力の「Allocated memory」と「Free memory」の関係を確認します。また、より視覚的に確認するには、nvidia-smiコマンドの繰り返し実行や、以下のコマンドでプロセスごとの詳細をモニタリングします。

# 1秒間隔でGPUメモリ使用状況を監視
watch -n 1 nvidia-smi

「Free」メモリが十分にあるのにプログラムが大きなメモリ確保に失敗する場合、フラグメンテーションが強く疑われます。

ステップ2：即時解消法（実行中のプログラム用）

現在実行中のPythonプロセスで、CUDAメモリのキャッシュをクリアして未使用のメモリ断片を解放するには、以下のコマンドを実行します。

import torch
import gc

# Pythonのガベージコレクションを実行
gc.collect()
# PyTorchのCUDAキャッシュメモリを全て解放
torch.cuda.empty_cache()

# 解放後のメモリ状態を確認
print(f"空きメモリ: {torch.cuda.memory_reserved(0) - torch.cuda.memory_allocated(0)} bytes")

この方法は一時的な対処療法です。スクリプトの途中で大きなメモリブロックが必要な処理の直前に挿入するなどの使い方が考えられます。

ステップ3：根本的解決法（コード・環境の改善）

1. 固定サイズのバッチ処理とデータ前処理: データローダーでサンプルを同じサイズになるようにパディングしたり、固定サイズのバッチを採用したりします。
2. メモリアロケータの挙動を変更する（PyTorch）: PyTorchには実験的な機能として、フラグメンテーションを軽減するアロケータが用意されています。

import torch
# 環境変数で有効化（スクリプト実行前またはコードの最初で設定）
import os
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:128'

max_split_size_mbは、アロケータがメモリブロックを分割する最大サイズを指定します。小さくしすぎるとオーバーヘッドが、大きくしすぎるとフラグメンテーションが発生しやすくなります。チューニングが必要です。

3. プログラム構造の見直し: 大きなテンソルのメモリ確保・解放をループ内で行わないようにし、可能な限り事前に必要なメモリをまとめて確保（プリアロケーション）する設計に変更します。

# 悪い例（ループ内で都度確保）
results = []
for data in dataloader:
    output = model(data.to('cuda')) # 毎回新しいメモリ
    results.append(output.cpu())

# 改善例（必要な最大サイズを事前に確保）
batch_size = dataloader.batch_size
max_output_size = (batch_size, 1000) # 例
preallocated_output = torch.empty(max_output_size, device='cuda')
for i, data in enumerate(dataloader):
    output = model(data.to('cuda'))
    preallocated_output[:len(output)] = output # 事前確保したメモリを使用
    results.append(preallocated_output[:len(output)].cpu())

4. 定期的なプロセス再起動: 長時間動作するトレーニングスクリプトでは、エポックや特定のステップが終了するタイミングでスクリプトを終了し、再起動する設計にします。これによりOSレベルでGPUメモリが完全に解放され、フラグメンテーションがリセットされます。ジョブスケジューラ（Slurmなど）と組み合わせるのが現実的です。

コード例・コマンド例：総合的なトラブルシューティングスクリプト

以下は、メモリフラグメンテーションの問題を調査・軽減するためのユーティリティ関数の例です。

import torch
import gc

def diagnose_cuda_memory():
    """CUDAメモリの状態を詳細に診断する"""
    print(torch.cuda.memory_summary(abbreviated=False))

def clear_cuda_cache():
    """CUDAキャッシュとPythonガベージを強制解放"""
    gc.collect()
    torch.cuda.empty_cache()
    print("CUDA cache cleared.")

def check_for_fragmentation(threshold_mb=500):
    """
    大きな空きブロックが存在するかチェックし、
    フラグメンテーションの可能性を警告する
    threshold_mb: 連続空きメモリがこの値(MB)以下なら警告
    """
    stats = torch.cuda.memory_stats()
    # 最大の空きブロックサイズを取得（PyTorchのバージョンに注意）
    # より直接的なAPIが変わる可能性があるため、ドキュメント要確認
    largest_block = stats.get('largest_block', 0)
    largest_block_mb = largest_block / (1024**2)

    total_free = torch.cuda.memory_reserved(0) - torch.cuda.memory_allocated(0)
    total_free_mb = total_free / (1024**2)

    print(f"総空きメモリ: {total_free_mb:.2f} MB")
    print(f"最大連続空きブロック: {largest_block_mb:.2f} MB")

    if largest_block_mb  threshold_mb:
        print(f"警告: 総空きメモリは{total_free_mb:.2f}MBありますが、")
        print(f"連続した{threshold_mb}MBのブロックがありません。")
        print("メモリフラグメンテーションが発生している可能性が高いです。")
        return True
    return False

# 使用例
if __name__ == "__main__":
    print("=== CUDAメモリ診断開始 ===")
    diagnose_cuda_memory()
    if check_for_fragmentation():
        print("nフラグメンテーション検出。キャッシュをクリアします...")
        clear_cuda_cache()
        print("n=== クリア後の状態 ===")
        check_for_fragmentation()

まとめ・補足情報

CUDAメモリフラグメンテーションは、特に長時間の学習や複雑なモデルを扱う際に遭遇する頑固な問題です。表面的な「メモリ不足」エラーに惑わされず、まずはtorch.cuda.memory_summary()やnvidia-smiで実メモリ使用量と空き容量を確認することが第一歩です。

重要なポイント:

予防が最善策: 可変サイズのメモリ確保を避け、メモリ使用パターンを可能な限り均一に保つプログラム設計を心がけましょう。
ツールを活用: PyTorch ProfilerやNsight Systemsなどのプロファイリングツールを使用すると、メモリ確保・解放のタイミングとサイズを時系列で可視化でき、問題の特定に大変有効です。
環境変数によるチューニング: PYTORCH_CUDA_ALLOC_CONFは強力なオプションですが、値はご自身のワークロードに合わせて調整が必要です。ドキュメント（PyTorch Memory Management）を参照してください。
フレームワークのアップデート: PyTorchやTensorFlowはメモリアロケータを継続的に改善しています。問題が解決しない場合は、フレームワークのバージョンアップも検討してください。

メモリフラグメンテーションと正しく向き合うことで、貴重なGPUリソースを最大限に活用し、学習や推論の効率を大幅に向上させることができるでしょう。