【llama.cpp】llama.cpp GPU対応ビルドガイド|CUDA/Metal/ROCm対応

llama.cppとは

llama.cppは、AI開発・推論環境において重要なツールの一つです。本ガイドでは、llama.cppのインストールから初期設定、動作確認までの手順を詳しく解説します。初心者の方でも迷わずセットアップできるよう、OS別の手順とよくあるトラブルへの対処法も合わせて紹介します。

動作要件

セットアップを始める前に、以下の環境要件を確認してください。

  • OS: Windows 10/11、Ubuntu 20.04以降、macOS 13以降
  • Python: 3.10以上推奨
  • GPU: NVIDIA GPU(CUDA対応)推奨、Apple Silicon対応の場合あり
  • メモリ: 最低16GB RAM推奨

インストール手順

ステップ1: ソースコードの取得

GitHubからリポジトリをクローンします。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

ステップ2: CUDA対応ビルド(NVIDIA GPU)

CUDAを有効にしてビルドします。

mkdir build && cd build
cmake .. -DGGML_CUDA=ON
cmake --build . --config Release -j$(nproc)

ステップ3: Metal対応ビルド(Apple Silicon)

macOSではMetalが自動検出されます。

mkdir build && cd build
cmake ..
cmake --build . --config Release

ステップ4: 動作確認

GGUFモデルを使って推論テストを実行します。

./build/bin/llama-cli -m models/model.gguf -p 'Hello, world' -n 50

動作確認

インストールが完了したら、以下のコマンドで正常に動作するか確認しましょう。

よくあるトラブルと解決法

CMakeでCUDAが見つからない

CUDA Toolkitのパスを確認してください。CMAKE_CUDA_COMPILER環境変数にnvccのパスを指定することで解決する場合があります。

ビルドがC++コンパイラ不足で失敗する

build-essentialパッケージ(Ubuntu)やVisual Studio Build Tools(Windows)をインストールしてください。

参考リンク

まとめ

本ガイドではllama.cppのセットアップ手順を解説しました。環境構築でつまずいた場合は、エラーメッセージを確認し、上記のトラブルシューティングを参考にしてください。

記事の内容についてご質問やフィードバックがあれば、お気軽にコメントでお知らせください。

☁️ ローカルGPUが足りない?クラウドGPUという選択肢

高性能GPUを今すぐ使いたい方には、クラウドGPUサービスがおすすめです:

  • RunPod — RTX 4090が$0.44/h〜、Serverless推論にも対応。セットアップ不要で即利用可能
  • Vast.ai — 最安値のGPUマーケットプレイス。H100/A100も格安で利用可能

🔧 おすすめの開発環境

本記事の手順を快適に進めるための推奨スペック:

🔧 快適な開発環境のために

本記事の手順をスムーズに進めるために、以下のスペックを推奨します。

この記事は役に立ちましたか?