問題の概要：Flash Attention 2の有効化に失敗する

PyTorchで大規模言語モデル(LLM)の学習や推論を高速化するために、Flash Attention 2を導入しようとした際、以下のようなエラーに遭遇することがあります。

# 典型的なエラーメッセージ例
RuntimeError: No kernel available for Flash Attention. Make sure your PyTorch version is compatible and CUDA is properly installed.

ModuleNotFoundError: No module named 'flash_attn'

UserWarning: The installed version of flash_attn (x.x.x) is not compatible with PyTorch (x.x.x). Falling back to standard attention.

AssertionError: Flash Attention 2 requires CUDA architecture sm80 (A100) or higher. Your GPU: sm_75

これらのエラーは、環境設定の不備やバージョンの不一致が原因で、Flash Attention 2が有効にならず、標準のAttention処理にフォールバックしてしまう（または完全に失敗する）ことを示しています。これでは、期待された大幅なメモリ削減と計算速度の向上が得られません。

原因の解説

Flash Attention 2を正常に動作させるには、以下の4つの条件がすべて揃っている必要があります。いずれか一つが欠けてもエラーが発生します。

1. ハードウェア（GPU）の制約

Flash Attention 2は、NVIDIA Ampereアーキテクチャ（sm80）以降のGPUを前提に最適化されています。具体的には、A100, H100, RTX 30系（sm86）、RTX 40系（sm89）などです。古いGPU（例：T4（sm75）、V100（sm70））では、一部機能が制限されたり、そもそもインストールに失敗したりします。

2. ソフトウェアの厳密なバージョン互換性

PyTorch、CUDA Toolkit、Flash Attentionライブラリのバージョン組み合わせが非常にシビアです。公式にサポートされていない組み合わせでは、コンパイルエラーや実行時エラーが発生します。

3. 正しいインストール方法の選択ミス

単純に pip install flash-attn を実行するだけでは、システム環境に合わせた最適なビルドが行われない場合があります。特に、CUDAバージョンや特定のPyTorchバージョンに対応したビルドを指定する必要があるケースが多いです。

4. コード内での適切な呼び出し

ライブラリが正しくインストールされていても、モデルのコードでFlash Attention 2を明示的に有効化する記述がなければ、標準のAttentionが使用されます。

解決方法：ステップバイステップガイド

ここからは、最も一般的な環境（CUDA 11.8, PyTorch 2.0+）を例に、確実にFlash Attention 2を有効化する手順を説明します。

ステップ1：環境の確認

まず、現在の環境を確認します。

# Pythonバージョン確認
python --version

# PyTorchとCUDAバージョン確認
python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA Available: {torch.cuda.is_available()}'); print(f'CUDA Version: {torch.version.cuda}'); print(f'GPU: {torch.cuda.get_device_name(0)}')"

# GPUアーキテクチャ確認（オプション）
python -c "import torch; print(f'Compute Capability: {torch.cuda.get_device_capability()}')"

出力結果が Compute Capability: (8, 0)（A100）や (8, 6)（RTX 30系）など、メジャーバージョンが8以上であることを確認してください。

ステップ2：互換性のある環境の構築（クリーンインストール推奨）

既存環境に問題がある場合は、新しい仮想環境を作成するのが確実です。以下は、2024年現在、動作が確認されている安定した組み合わせです。

# 1. 仮想環境の作成と有効化（condaの場合）
conda create -n flash_attn_env python=3.10 -y
conda activate flash_attn_env

# 2. 互換性のあるPyTorchのインストール（CUDA 11.8の場合）
pip install torch==2.1.2 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 3. Flash Attention 2のインストール（最も重要なステップ）
# オプションA: 公式推奨の事前ビルド済みパッケージ（最も簡単）
pip install flash-attn --no-build-isolation

# オプションB: 特定のCUDA/PyTorchバージョン向けにソースからビルド（より最適化）
# ビルドツールのインストール（Linuxの場合）
# sudo apt-get install -y ninja-build
# pip install flash-attn --no-build-isolation --no-cache-dir

# オプションC: Wheelファイルを直接指定（環境にぴったり合う場合）
# pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.3.0/flash_attn-2.3.0+cu118torch2.1cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

ポイント: --no-build-isolation オプションを付けることで、システムにインストールされている正しいCUDAバージョンを検知させ、適切なカーネルをビルドすることができます。

ステップ3：インストールの確認

インストールが成功したか、簡単なスクリプトで確認します。

# 確認用スクリプト (test_flash_attn.py)
import torch
import flash_attn

print(f"PyTorch version: {torch.__version__}")
print(f"Flash Attention version: {flash_attn.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")

# Flash Attentionの関数が呼び出せるか簡単なテスト
from flash_attn import flash_attn_func
import torch.nn.functional as F

batch_size, seq_len, nheads, d = 2, 1024, 12, 64
q = torch.randn(batch_size, seq_len, nheads, d, device='cuda', dtype=torch.float16)
k = torch.randn(batch_size, seq_len, nheads, d, device='cuda', dtype=torch.float16)
v = torch.randn(batch_size, seq_len, nheads, d, device='cuda', dtype=torch.float16)

# Flash Attention 2を試行
output, _ = flash_attn_func(q, k, v, causal=True, return_attn_probs=True)
print(f"Flash Attention 2 output shape: {output.shape}")
print("✅ Flash Attention 2 is successfully installed and working!")

エラーなく最後のメッセージが表示されれば成功です。

ステップ4：実際のモデルでの有効化（Transformersライブラリ使用例）

Hugging Face Transformersライブラリを使用している場合、モデルの読み込み時に引数を指定するだけでFlash Attention 2を有効化できます。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "meta-llama/Llama-2-7b-hf" # 例としてLLaMA 2

# Flash Attention 2を有効にしてモデルを読み込む
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto",
    use_flash_attention_2=True,  # この引数がキー！
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

# 推論の実行
inputs = tokenizer("こんにちは、AIの", return_tensors="pt").to("cuda")
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

use_flash_attention_2=True を設定することで、モデル内部のAttentionレイヤーが自動的にFlash Attention 2に置き換えられます。モデルのログに Using Flash Attention 2.0 のようなメッセージが表示されることを確認してください。

コード例・コマンド例

エラー別の対処法

エラー: `AssertionError: Flash Attention 2 requires CUDA architecture sm80 or higher.`

→ お使いのGPUが非対応です。この場合、Flash Attention 1（sm70以上対応）を試すか、または `xformers` ライブラリの利用を検討してください。

# Flash Attention 1のインストール（古いGPU向け）
pip install flash-attn==1.0.9

# xformersのインストール（別のメモリ効率化Attention）
pip install xformers

エラー: `ModuleNotFoundError: No module named ‘flash_attn’`

→ インストールが完了していないか、仮想環境がアクティブになっていません。ステップ2を再度実行してください。

警告: `UserWarning: … Falling back to standard attention.`

→ バージョン互換性の問題か、コード内での有効化設定が不足しています。環境をステップ2の通りに整え、モデル読み込み時に use_flash_attention_2=True を必ず指定してください。

まとめ・補足情報

Flash Attention 2を有効化するプロセスは、ハードウェア制約、ソフトウェアバージョンの互換性、正しいインストール手順という「三重の関門」を突破する必要があります。本記事で解説した以下の流れが確実です。

GPUアーキテクチャの確認 (sm80以上が必須)。
クリーンな仮想環境 の構築。
公式推奨のバージョン組み合わせ (PyTorch 2.x + CUDA 11.8/12.1) での環境構築。
pip install flash-attn --no-build-isolation によるインストール。
モデル利用時は use_flash_attention_2=True の明示的指定。

成功すれば、長いシーケンス長での学習・推論時に、メモリ使用量が劇的に削減され、処理速度も向上することを実感できるでしょう。特に、最近のLLMを限られたGPUリソースで扱う際には、ほぼ必須の技術と言えます。問題が解決しない場合は、Flash Attention公式GitHubリポジトリのIssueページに、類似の報告と解決策が多く掲載されているので、参照することをお勧めします。