【Ollama】30分放置すると応答が遅くなる問題の解決法

この記事では、Ollamaで一定時間操作しないとモデルがGPUからアンロードされ、再度の応答が極端に遅くなる問題について、海外コミュニティでの解決策を要約して解説します。

1. どんな問題(エラー)が発生したか?

  • 発生した環境やツール: Ollama、Linux / Windows / macOS
  • エラーメッセージ: 明示的なエラーは出ないが、ログにunloading modelと記録される
  • 症状: 30分程度放置した後にプロンプトを送ると、最初の応答に数十秒〜数分かかる

2. 結論(解決策)

Ollamaのデフォルトでは、5分間アイドル状態が続くとモデルをメモリからアンロードします。keep_aliveパラメータを調整してモデルを常駐させることで解決します。

3. 具体的な手順

  1. APIリクエスト時にkeep_aliveを指定
    curl http://localhost:11434/api/generate -d '{
      "model": "llama3:8b",
      "prompt": "Hello",
      "keep_alive": -1
    }'

    -1を指定するとモデルが永続的にメモリに保持されます。

  2. 環境変数でグローバルに設定
    export OLLAMA_KEEP_ALIVE=-1

    Linuxでsystemdサービスとして動かしている場合は、サービスファイルにEnvironment="OLLAMA_KEEP_ALIVE=-1"を追加します。

  3. 設定後にOllamaを再起動
    sudo systemctl restart ollama

4. 補足・注意点

keep_alive=-1に設定するとGPUメモリが常に占有されるため、他のアプリケーションでGPUを使用する場合は注意が必要です。メモリに余裕がない環境ではkeep_alive=60mのように適度な時間を指定するのも有効です。


5.
👉 【RunPod】1時間数十円から使える高性能クラウドGPU

参考元

本記事は海外コミュニティの複数のディスカッションを要約・再構成したものです。

Source: Ollama GitHub Issues

💡 この問題を根本的に解決するには

ローカル環境のGPUトラブルが頻発する場合、ハードウェアの見直しも検討してみてください:

💡 この問題を根本的に解決するには

ローカル環境でGPUトラブルが頻発する場合、クラウドGPUサービスの利用も検討してみてください。環境構築の手間なく、すぐにAI開発を始められます。

  • RunPod — RTX 4090が$0.44/h〜、ワンクリックでJupyter環境が起動
  • Vast.ai — コミュニティGPUマーケットプレイス、最安値でGPUレンタル
この記事は役に立ちましたか?