問題の概要：vLLM起動時のGPUメモリ不足エラー

vLLMは大規模言語モデル(LLM)を高速推論するためのライブラリですが、特に大規模モデルをロードする際に、以下のようなGPUメモリ不足エラーが発生することがあります。

RuntimeError: Not enough GPU memory to allocate 24576 MiB for the model weights.
Please try to reduce the model size or use more GPUs.
Available memory: 40960 MiB, required memory: 49152 MiB.

このエラーは、選択したLLMモデル（例：Llama 3 70B、Mixtral 8x7Bなど）のパラメータをGPUのVRAMにロードするために必要なメモリ量が、利用可能なメモリ容量を超えていることを示しています。エンジニアがローカル環境や限られたクラウドインスタンスで大規模モデルを試す際に頻出する課題です。

原因の解説：なぜメモリ不足が起こるのか

vLLMにおける「Not enough GPU memory」エラーの根本原因は、主に以下の3点に集約されます。

1. モデルパラメータの生のメモリ要求

LLMの重み（weights）は通常、float16（16ビット浮動小数点数）またはbfloat16形式で保存されます。例えば、70Bパラメータのモデルでは、単純計算で「70 × 10^9 パラメータ × 2 バイト/パラメータ = 約140GB」のGPUメモリが必要になります。これに推論時のキーバリューキャッシュ（KVキャッシュ）やアクティベーションなどのオーバーヘッドが加わります。

2. KVキャッシュのメモリ消費

vLLMは、TransformerのAttention層における過去のキーと値の計算結果をキャッシュ（PagedAttention）することで高速化を実現しています。このKVキャッシュは、シーケンス長が長くなるほど、また並行処理するリクエスト数（max_num_seqs）が多くなるほど、大量のメモリを消費します。

3. 利用可能なGPUリソースの限界

一般的なコンシューマ向けGPU（NVIDIA RTX 4090: 24GB）や、クラウドの標準インスタンス（例：AWS g5.xlarge: 24GB）では、大規模モデルをフルパラメータでロードすることは物理的に不可能です。マルチGPU環境であっても、モデル並列の設定が不適切だと、このエラーに遭遇します。

解決方法：ステップバイステップでの対処法

GPUメモリ不足を解決するには、モデルサイズの圧縮、メモリ使用量の最適化、ハードウェアリソースの有効活用という3つのアプローチがあります。

ステップ1: 量子化（Quantization）モデルの利用

モデルの重みを低ビット精度（例：8ビット、4ビット）で表現することで、メモリ使用量と計算コストを大幅に削減します。vLLMはHugging Face Hubの量子化モデルを直接サポートしています。

# 4ビット量子化モデル（AWQまたはGPTQ）のロード例
from vllm import LLM

# AWQ量子化モデルの場合
llm = LLM(model="TheBloke/Llama-2-7B-Chat-AWQ",
          quantization="awq",
          dtype="half")

# GPTQ量子化モデルの場合
llm = LLM(model="TheBloke/Llama-2-13B-Chat-GPTQ",
          quantization="gptq",
          dtype="float16")

注意点: 量子化によりモデルの精度が若干低下する可能性があります。タスクに応じて許容範囲を判断してください。

ステップ2: Tensor Parallelismによるモデル分割

単一のGPUに収まらないモデルを複数のGPUに分割してロードする手法です。vLLMではtensor_parallel_size引数で簡単に設定できます。

# 2台のGPUでモデルを分割してロードする例
llm = LLM(model="meta-llama/Llama-2-70b-chat-hf",
          tensor_parallel_size=2,  # 利用するGPU数
          max_model_len=4096,      # 最大コンテキスト長を制限
          gpu_memory_utilization=0.9)  # GPUメモリ使用率の目標値

必要なtensor_parallel_sizeは、モデルサイズとGPUメモリから概算できます。70Bモデルを2台の24GB GPUで動かす場合は必須です。

ステップ3: 推論パラメータの最適化

KVキャッシュのメモリ使用量を制御するパラメータを調整します。

llm = LLM(model="mistralai/Mistral-7B-Instruct-v0.2",
          max_num_seqs=4,           # 同時処理するリクエスト数を制限（デフォルトは256）
          max_model_len=2048,       # サポートする最大シーケンス長を短縮
          block_size=16,            # PagedAttentionのブロックサイズ（メモリ効率に影響）
          swap_space=4)             # CPUメモリへのスワップ領域（GB）

max_num_seqs: バッチ推論時の同時リクエスト数を減らすと、KVキャッシュメモリが削減されます。
max_model_len: 長い文書処理が必要ない場合は、2048や4096など現実的な値に設定します。
swap_space: GPUメモリが不足した場合に、CPUメモリをスワップ領域として利用します（速度低下のトレードオフ）。

ステップ4: より小型のモデルへの切り替え

業務要件が許すのであれば、パラメータ数の少ないモデルを選択するのが最も確実な解決策です。7Bや13Bクラスのモデルは、単一の24GB GPUで十分動作します。

# メモリ消費が少ない小型モデルの例
llm = LLM(model="google/gemma-7b-it",          # Googleの7Bモデル
          dtype="bfloat16")                    # メモリ効率の良いbfloat16を使用

# または
llm = LLM(model="microsoft/phi-2",             # 2.7Bパラメータの小型モデル
          trust_remote_code=True)

コード例・コマンド例：実践的なワークフロー

実際のトラブルシューティングの流れを、24GBメモリの単一GPU（RTX 4090）で70Bモデルを動かそうとして失敗したケースを例に示します。

ケーススタディ：単一GPUでの大規模モデル実行試行

# 最初の試み（おそらく失敗する）
from vllm import LLM
llm = LLM(model="meta-llama/Llama-2-70b-chat-hf")  # メモリ不足エラー発生！

# 解決策1: 量子化モデルに切り替え
llm = LLM(model="TheBloke/Llama-2-70B-Chat-AWQ",
          quantization="awq",
          dtype="half",
          max_model_len=4096)  # これで24GB GPUに収まる可能性が高い

# 解決策2: マルチGPU環境がある場合（2x24GB GPU）
llm = LLM(model="meta-llama/Llama-2-70b-chat-hf",
          tensor_parallel_size=2,
          max_model_len=4096,
          gpu_memory_utilization=0.85)

# 解決策3: 推論設定を最小限に
llm = LLM(model="meta-llama/Llama-2-70b-chat-hf",
          tensor_parallel_size=2,
          max_num_seqs=2,      # 同時リクエスト数を最小化
          max_model_len=2048,  # コンテキスト長を短縮
          enforce_eager=True)  # カーネル融合を無効化（メモリ削減）

vLLMサーバー起動時のメモリエラー対処

vLLMをOpenAI互換APIサーバーとして起動する場合のコマンド例です。

# メモリ不足が予想される場合の安全な起動オプション
python -m vllm.entrypoints.openai.api_server 
    --model meta-llama/Llama-2-13b-chat-hf 
    --tensor-parallel-size 1 
    --max-model-len 4096 
    --gpu-memory-utilization 0.9 
    --served-model-name llama-2-13b-chat 
    --api-key your-api-key-here

# より積極的なメモリ制限（限界環境用）
python -m vllm.entrypoints.openai.api_server 
    --model TheBloke/Llama-2-7B-Chat-AWQ 
    --quantization awq 
    --max-num-seqs 8 
    --block-size 8 
    --swap-space 2 
    --port 8000

まとめ・補足情報

vLLMの「Not enough GPU memory」エラーは、大規模言語モデルを扱う上で避けて通れない課題ですが、適切な対処法を段階的に適用することで解決可能です。

効果的なトラブルシューティングの流れ

モデルサイズの確認: まずモデルのパラメータ数と必要なメモリ量を見積もります。概算式は「パラメータ数 × 2バイト（float16の場合） × 1.2（オーバーヘッド）」です。
量子化の検討: 4ビットや8ビットの量子化モデルが利用可能かHugging Face Hubで確認します。TheBlokeなどが提供する事前量子化モデルが便利です。
ハードウェアリソースの見直し: 単一GPUで無理な場合は、tensor_parallel_sizeを調整してマルチGPU利用を検討します。
推論パラメータの調整: max_num_seqs、max_model_lenなど、メモリ消費に直結するパラメータを必要最小限に設定します。

予防的な対策

メモリ監視: nvidia-smiコマンドでGPUメモリ使用率を常時監視します。
開発環境の選択: ローカル開発では7B-13Bクラスのモデルから始め、本番環境で大規模モデルを使用することをお勧めします。
クラウドGPUの活用: Google Colab Pro（A100 40GB）、AWS p4dインスタンス（8x A100 40GB）など、必要に応じてクラウドの高性能GPUを一時利用する方法もあります。

vLLMは急速に進化しているプロジェクトです。最新のメモリ最適化機能（例：FP8量子化のサポート、より効率的なPagedAttention）をリリースノートで確認し、常にベストプラクティスを取り入れることが、大規模モデル推論を成功させる鍵となります。