問題の概要：AMP使用時の代表的なエラーと課題

PyTorchのAutomatic Mixed Precision (AMP) トレーニングは、メモリ使用量の削減と計算速度の向上をもたらす強力な機能です。しかし、実装時に初心者から中級者までが頻繁に遭遇する特定のエラーや課題が存在します。代表的なものとして、RuntimeError: "addmm_impl_cpu_" not implemented for 'Half' や RuntimeError: value cannot be converted to type at::Half without overflow といったエラーメッセージが表示され、トレーニングが突然中断することがあります。また、精度（Accuracy）が単精度（FP32）トレーニングに比べて低下する、学習が不安定になる、あるいは速度向上効果が思ったほど得られないといったパフォーマンスに関する課題もよく報告されます。

原因の解説：なぜエラーが発生するのか？

これらのエラーの根本原因は、AMPが計算グラフの一部を半精度（FP16）で実行するという仕組みにあります。主な原因は以下の3つに分類できます。

1. CPU上でのFP16演算の試行

PyTorchのAMPは、GPU上での演算を最適化するために設計されています。モデルやテンソルがCPU上にある状態で半精度への変換が行われると、CPUではサポートされていない演算が発生し、"not implemented for 'Half'" エラーが発生します。これはデータローダーの出力や、意図せずCPUに送られた中間テンソルで起こりがちです。

2. 数値的不安定性（アンダーフロー/オーバーフロー）

FP16の表現可能な数値範囲（最大値 ~ 65504、最小正規化数 ~ 5.96e-8）はFP32に比べて狭いです。勾配やアクティベーションの値がこの範囲を超えると、アンダーフロー（0に丸められる）やオーバーフロー（無限大になる）が発生し、学習が破綻します。特に、小さな勾配が消失する「勾配アンダーフロー」は深刻な問題です。

3. 損失スケーリングの不適切な管理

AMPの核心機能である「損失スケーリング」を正しく適用しないと、上記の数値的不安定性を防げません。スケーラー（GradScaler）の更新タイミングや、オーバーフロー検出後の適切なステップスキップが実装されていないことが原因です。

解決方法：ステップバイステップのベストプラクティス

ステップ1: 環境とデータフローの確認

まず、すべてのモデルパラメータと入力データが確実にGPU上にあることを確認します。データローダーから出力されたバッチは明示的にGPUに送りましょう。

import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

for batch in dataloader:
    inputs, labels = batch
    inputs, labels = inputs.to(device), labels.to(device) # 必須！
    # ... 以降のAMP処理

ステップ2: GradScalerの適切な設定と使用

GradScalerはデフォルト設定で開始できますが、状況に応じて調整が必要です。

from torch.cuda.amp import GradScaler, autocast

# 1. スケーラーの作成（成長係数とバックオフ係数を調整可能）
scaler = GradScaler(init_scale=65536.0, growth_factor=2.0, backoff_factor=0.5, growth_interval=2000)

for epoch in range(num_epochs):
    for inputs, labels in dataloader:
        inputs, labels = inputs.to(device), labels.to(device)

        # 2. 順方向計算をautocastコンテキスト内で実行
        with autocast():
            outputs = model(inputs)
            loss = criterion(outputs, labels)

        # 3. スケーラーを使って逆方向計算と最適化
        scaler.scale(loss).backward() # loss.backward() ではない！
        scaler.step(optimizer)
        scaler.update() # スケール係数を更新。オーバーフロー時はスキップされる。
        optimizer.zero_grad()

ステップ3: 数値的不安定性への対処

特定の演算（ソフトマックス、層正規化など）をFP32で強制的に実行することで安定性を高めます。カスタムモデルを作成する場合は、torch.cuda.amp.custom_fwd と torch.cuda.amp.custom_bwd デコレータを使用します。

import torch.nn.functional as F
from torch.cuda.amp import custom_fwd, custom_bwd

class StableLayerNorm(torch.nn.Module):
    def forward(self, x):
        # このレイヤーの計算だけはFP32で行う
        return F.layer_norm(x.float(), self.normalized_shape).to(x.dtype)

# または、カスタム関数でデコレータを使用
@custom_fwd(cast_inputs=torch.float32) # 入力をFP32にキャストして計算
def my_risky_operation(x):
    # 数値的に敏感な計算
    return x / (x.sum(dim=-1, keepdim=True) + 1e-12)

ステップ4: オーバーフローの監視とデバッグ

スケーラーがオーバーフローを検出した際の挙動を確認し、デバッグ情報を出力します。

scaler = GradScaler()

for epoch in range(num_epochs):
    for i, (inputs, labels) in enumerate(dataloader):
        with autocast():
            loss = ...
        scaler.scale(loss).backward()

        # scaler.stepの戻り値はオーバーフローがなければNone
        skip_step = scaler.step(optimizer)
        if skip_step is not None:
            print(f"警告: ステップ {i} でオーバーフローを検出。勾配更新をスキップしました。現在のスケール: {scaler.get_scale()}")

        scaler.update()
        optimizer.zero_grad()

コード例・コマンド例：完全なトレーニングループ

以下は、画像分類タスクにおけるAMPを使用した安全かつ効率的なトレーニングループの完全な例です。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.cuda.amp import GradScaler, autocast

def train_one_epoch(model, dataloader, criterion, optimizer, device, scaler):
    model.train()
    running_loss = 0.0

    for batch_idx, (images, targets) in enumerate(dataloader):
        images, targets = images.to(device), targets.to(device)

        # オプティマイザの勾配をリセット
        optimizer.zero_grad()

        # Mixed Precision コンテキスト内で順伝播
        with autocast():
            outputs = model(images)
            loss = criterion(outputs, targets)

        # スケーラーを使用した逆伝播と最適化
        scaler.scale(loss).backward()

        # 勾配クリッピングを適用する場合は、scaler.unscale_を先に呼ぶ
        # scaler.unscale_(optimizer)
        # torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

        scaler.step(optimizer)
        scaler.update()

        running_loss += loss.item()

        if batch_idx % 100 == 0:
            print(f'Batch {batch_idx}, Loss: {loss.item():.4f}, Scale: {scaler.get_scale()}')

    return running_loss / len(dataloader)

# メインセットアップ
device = 'cuda'
model = YourModel().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.AdamW(model.parameters(), lr=1e-3)
scaler = GradScaler()

for epoch in range(num_epochs):
    avg_loss = train_one_epoch(model, train_loader, criterion, optimizer, device, scaler)
    print(f'Epoch {epoch}, Average Loss: {avg_loss:.4f}')

まとめ・補足情報

PyTorch AMPを効果的かつ安全に使用するための要点をまとめます。

1. 必須チェックリスト:

すべてのテンソルがGPU上にあることを確認する。
loss.backward() の代わりに scaler.scale(loss).backward() を使用する。
scaler.step(optimizer) と scaler.update() をペアで呼び出す。
オプティマイザの zero_grad() は通常通り呼び出す（スケーラー適用後でも問題ない）。

2. パフォーマンス最大化のヒント:

バッチサイズを増やしてGPU利用率を高める（AMPによるメモリ節約効果を活用）。

<li torch.backends.cudnn.benchmark = True を設定し、cuDNNの自動チューニングを有効にする。

<li NVIDIAの最新ドライバとCUDA Toolkitを使用する。

3. トラブルシューティングの最終手段:

どうしてもエラーが解決しない場合、以下のデバッグ手法を試してください。

# 1. autocast範囲を限定して問題のある操作を特定
with autocast():
    out1 = layer1(x) # ここまではOK
out2 = layer2(out1) # ここでエラーなら、layer2が原因

# 2. 勾配のNaN/Infをチェック
scaler.unscale_(optimizer)
for name, param in model.named_parameters():
    if param.grad is not None:
        if torch.isnan(param.grad).any() or torch.isinf(param.grad).any():
            print(f"勾配に異常値発見: {name}")

# 3. フォールバック: 問題のあるレイヤーだけをFP32で実行
class MixedPrecisionWrapper(nn.Module):
    def __init__(self, layer):
        super().__init__()
        self.layer = layer
    def forward(self, x):
        with autocast(enabled=False): # このレイヤーではAMPを無効化
            return self.layer(x.float())).to(x.dtype)

AMPは適切に使用すれば、トレーニング速度を1.5〜3倍に向上させながら、ほとんど精度を損なわない強力なツールです。本ガイドで紹介したベストプラクティスとエラー解決策を参考に、安全で効率的な混合精度トレーニングを実装してください。