問題の概要：AMP使用時の典型的なエラーと課題

PyTorchのAutomatic Mixed Precision (AMP) は、メモリ使用量を削減し、訓練速度を向上させる強力なツールです。しかし、特に初心者から中級者の開発者が導入する際、以下のようなエラーや予期せぬ動作に遭遇することがあります。

「RuntimeError: value cannot be converted to type half without overflow」: 非常に大きな値や小さな値を持つテンソルを半精度(float16)にキャストしようとした際に発生します。
「NaN (Not a Number) 損失の発生」: 訓練中に損失値が突然NaNになり、学習が破綻します。勾配のアンダーフロー/オーバーフローが主な原因です。
期待した速度向上が得られない: AMPを有効にしても訓練速度がほとんど変わらない、または逆に遅くなるケース。
メモリ削減効果が小さい: モデルのパラメータはfloat32のままなので、アクティベーションのメモリしか節約できず、効果を実感しにくい。

これらの問題は、AMPの仕組みを理解せずに表面的に適用した場合に起こりがちです。本記事では、その原因と実践的な解決策、ベストプラクティスを詳しく解説します。

原因の解説：なぜエラーが起こるのか？

AMPの核心は、演算の種類によって精度を使い分けることです。順伝播と勾配計算はメモリと計算が効率的なfloat16 (半精度) で行い、重みの更新は精度を保つためにfloat32 (単精度) で行います。この切り替えを自動化するのが torch.cuda.amp.GradScaler と torch.cuda.amp.autocast コンテキストマネージャーです。

主要なエラーの原因

1. 勾配のアンダーフロー: float16の表現可能な最小正の数は約5.96e-8です。これより小さい勾配は0になってしまい（アンダーフロー）、更新が行われなくなります。これが学習の停滞やNaN損失の原因になることがあります。

2. 損失スケーリングの不足または過剰: GradScaler の役割は、損失に適切な係数（スケールファクター）を掛けることで、勾配をfloat16で安全に表現できる範囲に「拡大」することです。スケールが小さすぎるとアンダーフローを防げず、大きすぎるとオーバーフロー（値が大きすぎる）を引き起こし、NaNを生み出します。

3. 非対応の演算: 一部の演算（例えば、畳み込みや線形層など多くのCUDA演算）はfloat16で高速に実行されますが、指数関数や一部のリダクション操作など、精度が求められる演算は自動的にfloat32で実行されるよう設計されています。これを誤解すると予期せぬ動作の原因となります。

4. CPUテンソルでのautocast: autocast はデフォルトでCUDA (GPU) デバイス上の演算にのみ適用されます。CPUテンソルに対しては効果がありません。

解決方法：ステップバイステップのベストプラクティス

ステップ1: 基本的なAMPセットアップの確認

まずは、AMPを使用するための最小限かつ正しいコード構造を確認しましょう。

import torch
from torch.cuda.amp import autocast, GradScaler

# 1. スケーラーの初期化 (訓練ループの外で1回だけ)
scaler = GradScaler()

for epoch in range(num_epochs):
    for data, target in dataloader:
        data, target = data.cuda(), target.cuda()

        # オプティマイザの勾配をゼロにリセット
        optimizer.zero_grad()

        # 2. 順伝播をautocastコンテキスト内で実行
        with autocast():
            output = model(data)
            loss = loss_fn(output, target)

        # 3. スケーラーを使って逆伝播 (loss.backward()の代わり)
        scaler.scale(loss).backward()

        # 4. スケーラーを使ってオプティマイザステップ
        scaler.step(optimizer)

        # 5. 次のイテレーションに向けてスケーラーを更新
        scaler.update()

ステップ2: 勾配のNaN/無限大値の監視と動的スケーリング

GradScaler はデフォルトで動的スケーリングを行い、オーバーフローを検出するとスケールを下げ、数イテレーション後に回復を試みます。この挙動を理解し、必要に応じてパラメータを調整します。

# GradScalerの高度な設定例
scaler = GradScaler(
    init_scale=65536.0,  # 初期スケール (デフォルト2**16)
    growth_factor=2.0,   # オーバーフローがなければスケールをこの倍率で増やす
    backoff_factor=0.5,  # オーバーフローを検出したらスケールをこの倍率で減らす
    growth_interval=2000 # オーバーフローがなければ、このイテレーション数ごとにgrowth_factorを適用
)

# 訓練ループ内で、スケーラーの状態を確認することも可能
# scaler.get_scale() で現在のスケールを取得
# オーバーフローが頻発する場合は、init_scaleを小さくするか、growth_factorを1.0に近づけてみる。

ステップ3: 安全なモデル設計と演算の選択

モデル内で特定のレイヤーや関数がAMPと相性が悪い場合があります。以下の対策を講じましょう。

SoftmaxやLayerNorm: これらの演算は自動的にfloat32で計算されるため、特に心配はいりません。むしろ精度のためにfloat32で行うべきです。
カスタム関数で不安定な演算がある場合: autocast コンテキスト内で明示的にfloat32にキャストします。

with autocast():
    # ほとんどの計算は自動的に適切な精度に
    x = self.conv1(data)
    # カスタムの不安定な計算がある部分は明示的にfloat32で行う
    with torch.cuda.amp.autocast(enabled=False):
        # 例えば、非常に大きいまたは小さい値が関わる独自の計算
        x = x.float()  # float32にキャスト
        x = some_unstable_custom_function(x)
        x = x.half()   # 必要に応じてfloat16に戻す (必須ではない)
    output = self.fc(x)

ステップ4: 勾配クリッピングの正しい適用

勾配クリッピングは勾配爆発を防ぐ有効な手法ですが、AMPと併用する際はスケーリング後の勾配に対して適用する必要があります。

# ✗ 間違い: スケール前のlossに対してbackward()とclip_grad_norm_を呼ぶ
# loss.backward()
# torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

# ◯ 正しい: スケーラーを介してクリッピングを行う
scaler.unscale_(optimizer)  # オプティマイザの勾配を「スケール解除」する
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
# クリッピング後、scaler.step(optimizer)を実行する
scaler.step(optimizer)
scaler.update()

scaler.unscale_() を呼ばないと、クリッピングの閾値が巨大なスケールファクターで実質無効化されてしまいます。

コード例・コマンド例：実践的な訓練ループ

以下に、エラーハンドリングとロギングを含んだ、実用的なAMP訓練ループの完全な例を示します。

import torch
import torch.nn as nn
from torch.cuda.amp import autocast, GradScaler

def train_one_epoch(model, dataloader, optimizer, loss_fn, epoch, scaler):
    model.train()
    total_loss = 0

    for batch_idx, (data, target) in enumerate(dataloader):
        data, target = data.cuda(non_blocking=True), target.cuda(non_blocking=True)

        optimizer.zero_grad(set_to_none=True)  # メモリ効率向上

        # 順伝播 (AMP)
        with autocast():
            output = model(data)
            loss = loss_fn(output, target)

        # 逆伝播 (GradScaler経由)
        scaler.scale(loss).backward()

        # オプション: 勾配クリッピングを行う場合
        # scaler.unscale_(optimizer)
        # torch.nn.utils.clip_grad_value_(model.parameters(), clip_value=0.5)

        # オプティマイザステップ
        scaler.step(optimizer)
        scaler.update()

        total_loss += loss.item()

        # 定期的にスケールを監視
        if batch_idx % 100 == 0:
            current_scale = scaler.get_scale()
            print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.4f} | Scale: {current_scale}')

    return total_loss / len(dataloader)

# メインの訓練セットアップ
model = YourModel().cuda()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
scaler = GradScaler()

for epoch in range(num_epochs):
    avg_loss = train_one_epoch(model, train_loader, optimizer, nn.CrossEntropyLoss(), epoch, scaler)
    print(f'Epoch {epoch} finished. Average Loss: {avg_loss:.4f}')

まとめ・補足情報

PyTorchのAMPは、適切に使用すれば訓練の効率化に非常に有効です。成功の鍵は以下の点にあります。

基本構造の理解: autocast コンテキストと GradScaler の役割を正しく理解し、決まったパターンで使用する。
動的スケーリングへの信頼: デフォルトの GradScaler 設定は多くの場合でうまく機能します。まずはデフォルトで始め、NaNが頻発するなどの問題が発生した際にのみパラメータ調整を検討しましょう。
不安定な演算への対処: カスタムレイヤーや特定の数学関数で問題が起きたら、該当部分のみを autocast(enabled=False) で囲み、明示的にfloat32計算を行う。
勾配クリッピングとの併用: 必ず scaler.unscale_(optimizer) を呼んでからクリッピングを実行する。
パフォーマンスモニタリング: 速度向上とメモリ削減の効果を torch.cuda.memory_allocated() や訓練時間の計測で確認し、AMP導入のメリットを定量化する。

AMPは「魔法の杖」ではなく、浮動小数点数の数値的な振る舞いを理解した上で使用するツールです。本記事で紹介したベストプラクティスを参考に、安全かつ効率的な混合精度訓練を実現してください。最初はシンプルなモデルとデータセットで動作を確認し、徐々に複雑なタスクに適用していくことをお勧めします。