この記事では、Ollamaで一定時間操作しないとモデルがGPUからアンロードされ、再度の応答が極端に遅くなる問題について、海外コミュニティでの解決策を要約して解説します。

1. どんな問題（エラー）が発生したか？

2. 結論（解決策）

Ollamaのデフォルトでは、5分間アイドル状態が続くとモデルをメモリからアンロードします。keep_aliveパラメータを調整してモデルを常駐させることで解決します。

APIリクエスト時にkeep_aliveを指定
```
curl http://localhost:11434/api/generate -d '{
  "model": "llama3:8b",
  "prompt": "Hello",
  "keep_alive": -1
}'
```
-1を指定するとモデルが永続的にメモリに保持されます。
環境変数でグローバルに設定
```
export OLLAMA_KEEP_ALIVE=-1
```
Linuxでsystemdサービスとして動かしている場合は、サービスファイルにEnvironment="OLLAMA_KEEP_ALIVE=-1"を追加します。
設定後にOllamaを再起動
```
sudo systemctl restart ollama
```

keep_alive=-1に設定するとGPUメモリが常に占有されるため、他のアプリケーションでGPUを使用する場合は注意が必要です。メモリに余裕がない環境ではkeep_alive=60mのように適度な時間を指定するのも有効です。

本記事は海外コミュニティの複数のディスカッションを要約・再構成したものです。

ローカル環境のGPUトラブルが頻発する場合、ハードウェアの見直しも検討してみてください：

ローカル環境でGPUトラブルが頻発する場合、クラウドGPUサービスの利用も検討してみてください。環境構築の手間なく、すぐにAI開発を始められます。