冒頭:どんな問題が発生したか
oobaboogaのtext-generation-webuiでLLMモデルを読み込もうとした際に、以下のようなエラーが発生してモデルが読み込めない場合があります。
18:20:05-949469 ERROR Error loading the model with llama.cpp: Server process terminated unexpectedly with exit code: 1
このエラーは、GPUのVRAM容量不足、CUDAドライバーの問題、あるいはモデルの量化形式とGPU設定の不一致によって発生します。特にUsing gpu_layers=0という設定が表示されている場合、GPUアクセラレーションが有効になっていない状態でモデルを読み込もうとしてエラーになっている可能性があります。
具体的には、以下の環境で発生しやすいことが報告されています:
- GPU: NVIDIA GeForce RTX 2060(compute capability 7.5)
- モデル形式: GGUF形式(例:Google_gemma-3-12b-it-Q4_K_L.gguf)
- コンテキストサイズ: 25088
- 量子化形式: q8_0
結論:解決策を端的に
このエラーは、gpu_layers設定の調整、CUDAドライバーの更新、またはクリーンインストールによって解決できます。状況に応じて以下の手順を試してください。
具体的な手順:ステップバイステップ
手順1:gpu_layers設定を確認する
WebUIの「Settings」→「Model」タブで、gpu_layersの設定を確認します。デフォルトが0になっている場合、CPUのみで動作しようとしてエラーになることがあります。
# 推奨設定
gpu_layers: 35(VRAMが12GB以上の場合)
gpu_layers: 20(VRAMが8GB程度の場合)
gpu_layers: 0(VRAMが6GB以下の場合、CPUモード)
設定変更後、服务器を再起動してモデルを再度読み込んでください。
手順2:量子化形式改变的確認
モデルの量子化形式がGPUに対応しているか確認します。VRAMが少ない場合は、より低い量子化(Q4_K_MやQ5_K_Sなど)を選択してください。
# VRAM別推奨量子化
16GB VRAM: Q4_K_L, Q5_K_M
12GB VRAM: Q4_K_M, Q4_K_S
8GB VRAM: Q3_K_M, Q4_K_S
6GB VRAM: Q2_K, Q3_K_S
手順3:CUDAドライバーの更新
最新のCUDAドライバーに更新することで、GPU認識の問題が解決する場合があります。
# NVIDIA Driverの確認(Windows)
nvidia-smi
# 最新Driverのダウンロード
https://www.nvidia.com/Download/index.aspx
手順4:別のローダーを試す
同じモデルでも、ローダーによっては正常に動作する場合があります。WebUI左上部の「Model」メニューからローダーを変更试试看。
# 試すべきローダー
- llama.cpp(デフォルト)
- ExLlama
- AutoGPTQ
- GPTQ-for-LLaMa
手順5:クリーンインストール(最終手段)
上記方法で解決しない場合、干净的インストール是最後の手段です。
# Windowsの場合
1. modelsフォルダをバックアップ
2. text-generation-webuiフォルダを削除
3. installer_filesフォルダは残す
4. start_windows.batを再実行して再インストール
5. modelsフォルダを元に戻す
# Linux/Macの場合
1. modelsフォルダをバックアップ
2. リポジトリを削除
3. git cloneで再クローン
4. install.pyを実行
5. start_linux.shまたはstart_macos.shを実行
手順6:モデル关闭前の適切な終了
重要なポイントとして、モデルを 後に適切にアンロードせずにWebUIを閉じると、次回の起動時にエラーが発生する場合があります。WebUIを閉じる前に、「Unload model」ボタンをクリックするか、CPUモードに切换してから閉じてください。
補足・注意点
バージョン依存の問題
text-generation-webuiは頻繁に更新されており、バージョンによって動作が異なる場合があります。問題が解决しない場合は、最新バージョンに更新してみてください。
# アップデート確認(Linux)
git pull
pip install -r requirements.txt
環境差異
RTX 2060のような旧世代のGPUでは、最新のモデル( Gemma-3-12b-itなど)が動作しない場合があります。その場合は、より小さいモデルを試すか、CPUモードでの使用を検討してください。
よくある落とし穴
- VRAMの確認を忘れずに:タスクマネージャーでVRAM使用量をリアルタイムに確認できます
- モデルの量化形式错误:Q8_0はVRAM消費が大きいため、VRAMが限られた環境では向かない
- コンテキストサイズ過大:25088などの大きなコンテキストサイズはVRAMを 消費するため、必要に応じて小さくする
- 複数モデルの同時加载:複数のモデルフォルダがある場合、不要なモデルは別のフォルダに、移動させておく
環境変数による強制適用
特定のGPUでCUDAが正しく認識されない場合は、環境変数で强制的にMMQ(Mixed Multi-GPU)やCUBLASを有効にすることができます。
# Windows(setxコマンド実行後、WebUI再起動)
setx GGML_CUDA_FORCE_MMQ yes
setx GGML_CUDA_FORCE_CUBLAS yes
# Linux/Mac(.bashrcや.zshrcに追加)
export GGML_CUDA_FORCE_MMQ=yes
export GGML_CUDA_FORCE_CUBLAS=yes
参考元
- Reddit: Error when loading any model
- GitHub Issue #7219: Error loading any model on recently updated oobabooga
- GitHub Issue #2662: [Error]: Can’t load model
- Reddit: Won’t load webui or any models
- GitHub Discussion #4297: Failed to Load Model