vLLMとは
vLLMは、AI開発・推論環境において重要なツールの一つです。本ガイドでは、vLLMのインストールから初期設定、動作確認までの手順を詳しく解説します。初心者の方でも迷わずセットアップできるよう、OS別の手順とよくあるトラブルへの対処法も合わせて紹介します。
動作要件
セットアップを始める前に、以下の環境要件を確認してください。
- OS: Windows 10/11、Ubuntu 20.04以降、macOS 13以降
- Python: 3.10以上推奨
- GPU: NVIDIA GPU(CUDA対応)推奨、Apple Silicon対応の場合あり
- メモリ: 最低16GB RAM推奨
インストール手順
ステップ1: Python環境の準備
vLLMはPython 3.9以上が必要です。仮想環境を作成します。
python3 -m venv vllm-env
source vllm-env/bin/activate
ステップ2: vLLMのインストール
pipからインストールします。CUDA 12.1以上が必要です。
pip install vllm
ステップ3: モデルのダウンロードと起動
HuggingFaceのモデルを指定してAPIサーバーを起動します。
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.2-3B-Instruct \
--port 8000
ステップ4: OpenAI互換APIの確認
vLLMはOpenAI互換のAPIを提供します。
curl http://localhost:8000/v1/completions \
-H 'Content-Type: application/json' \
-d '{"model": "meta-llama/Llama-3.2-3B-Instruct", "prompt": "Hello", "max_tokens": 50}'
動作確認
インストールが完了したら、以下のコマンドで正常に動作するか確認しましょう。
よくあるトラブルと解決法
CUDA out of memoryエラー
モデルサイズがVRAMを超えています。–gpu-memory-utilizationオプションで使用率を調整するか、量子化モデルを使用してください。
モデルダウンロードが認証エラーになる
HuggingFaceのアクセストークンを設定してください。huggingface-cli loginコマンドで認証できます。
参考リンク
まとめ
本ガイドではvLLMのセットアップ手順を解説しました。環境構築でつまずいた場合は、エラーメッセージを確認し、上記のトラブルシューティングを参考にしてください。
記事の内容についてご質問やフィードバックがあれば、お気軽にコメントでお知らせください。
☁️ ローカルGPUが足りない?クラウドGPUという選択肢
高性能GPUを今すぐ使いたい方には、クラウドGPUサービスがおすすめです:
🔧 おすすめの開発環境
本記事の手順を快適に進めるための推奨スペック:
- GPU: NVIDIA RTX 4070 Ti Super(コスパ最強)
- メモリ: DDR5 64GB(LLM推論に必須)
- SSD: NVMe SSD 2TB(モデル保存用)
🔧 快適な開発環境のために
本記事の手順をスムーズに進めるために、以下のスペックを推奨します。
- GPU: NVIDIA RTX 4070 Ti Super(AI開発のコスパ最強GPU)
- メモリ: DDR5 64GB(LLMのローカル推論に必須)