この記事では、Ollamaで一定時間操作しないとモデルがGPUからアンロードされ、再度の応答が極端に遅くなる問題について、海外コミュニティでの解決策を要約して解説します。
1. どんな問題(エラー)が発生したか?
- 発生した環境やツール: Ollama、Linux / Windows / macOS
- エラーメッセージ: 明示的なエラーは出ないが、ログに
unloading modelと記録される - 症状: 30分程度放置した後にプロンプトを送ると、最初の応答に数十秒〜数分かかる
2. 結論(解決策)
Ollamaのデフォルトでは、5分間アイドル状態が続くとモデルをメモリからアンロードします。keep_aliveパラメータを調整してモデルを常駐させることで解決します。
3. 具体的な手順
- APIリクエスト時にkeep_aliveを指定
curl http://localhost:11434/api/generate -d '{ "model": "llama3:8b", "prompt": "Hello", "keep_alive": -1 }'-1を指定するとモデルが永続的にメモリに保持されます。 - 環境変数でグローバルに設定
export OLLAMA_KEEP_ALIVE=-1Linuxでsystemdサービスとして動かしている場合は、サービスファイルに
Environment="OLLAMA_KEEP_ALIVE=-1"を追加します。 - 設定後にOllamaを再起動
sudo systemctl restart ollama
4. 補足・注意点
keep_alive=-1に設定するとGPUメモリが常に占有されるため、他のアプリケーションでGPUを使用する場合は注意が必要です。メモリに余裕がない環境ではkeep_alive=60mのように適度な時間を指定するのも有効です。
5.
👉 【RunPod】1時間数十円から使える高性能クラウドGPU
参考元
本記事は海外コミュニティの複数のディスカッションを要約・再構成したものです。
Source: Ollama GitHub Issues
💡 この問題を根本的に解決するには
ローカル環境のGPUトラブルが頻発する場合、ハードウェアの見直しも検討してみてください:
- VRAM不足なら → RTX 4070 Ti Super(16GB VRAM)
- メモリ不足なら → DDR5 64GBメモリ
- AI開発を体系的に学ぶなら → AI・機械学習の実践書籍