【llama.cpp】llama.cpp GPU対応ビルドガイド｜CUDA/Metal/ROCm対応

llama.cppとは

llama.cppは、AI開発・推論環境において重要なツールの一つです。本ガイドでは、llama.cppのインストールから初期設定、動作確認までの手順を詳しく解説します。初心者の方でも迷わずセットアップできるよう、OS別の手順とよくあるトラブルへの対処法も合わせて紹介します。

セットアップを始める前に、以下の環境要件を確認してください。

GitHubからリポジトリをクローンします。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

CUDAを有効にしてビルドします。

mkdir build && cd build
cmake .. -DGGML_CUDA=ON
cmake --build . --config Release -j$(nproc)

macOSではMetalが自動検出されます。

mkdir build && cd build
cmake ..
cmake --build . --config Release

GGUFモデルを使って推論テストを実行します。

./build/bin/llama-cli -m models/model.gguf -p 'Hello, world' -n 50

インストールが完了したら、以下のコマンドで正常に動作するか確認しましょう。

CUDA Toolkitのパスを確認してください。CMAKE_CUDA_COMPILER環境変数にnvccのパスを指定することで解決する場合があります。

build-essentialパッケージ（Ubuntu）やVisual Studio Build Tools（Windows）をインストールしてください。

本ガイドではllama.cppのセットアップ手順を解説しました。環境構築でつまずいた場合は、エラーメッセージを確認し、上記のトラブルシューティングを参考にしてください。

記事の内容についてご質問やフィードバックがあれば、お気軽にコメントでお知らせください。

高性能GPUを今すぐ使いたい方には、クラウドGPUサービスがおすすめです：

本記事の手順を快適に進めるための推奨スペック：

本記事の手順をスムーズに進めるために、以下のスペックを推奨します。