【LLM全般】GGUF vs GPTQ vs AWQ：量子化方式の違いと選び方を完全解説

問題の概要：量子化方式の選択で生じる混乱とエラー

大規模言語モデル(LLM)をローカル環境やクラウドで効率的に実行するために不可欠な「量子化(Quantization)」。しかし、Hugging Faceやollamaなどのプラットフォームでモデルをダウンロードしようとすると、llama-2-7b-chat.GGUF、Llama-2-7B-GPTQ、Llama-2-7B-AWQのように、同じモデルでも複数の量子化バージョンが存在し、どれを選べばよいか迷うことがよくあります。間違った形式を選択すると、以下のような具体的なエラーが発生します。

# 例1: フレームワークと形式の不一致によるエラー
Error: Could not load model 'Llama-2-7B-GPTQ' with `transformers`.
The model requires `auto_gptq` library which is not installed.

# 例2: サポートされていない形式のエラー (ollamaでの例)
Error: model 'my-model' not found, try pulling it first
# 注: ollamaは主にGGUF形式をサポート

# 例3: ハードウェア非互換エラー
RuntimeError: Found no compatible kernel for 4-bit matmul on your device.

これらのエラーは、量子化方式の根本的な違いと、それが依存するハードウェア・ソフトウェアスタックを理解していないことに起因します。本記事では、現在主流の3つの方式「GGUF」「GPTQ」「AWQ」を徹底比較し、あなたのユースケースに最適な選択ができるようガイドします。

原因の解説：3つの量子化方式の根本的な違い

量子化とは、モデルの重み(パラメータ)の数値精度を下げる（例：32ビット浮動小数点 → 4ビット整数）ことで、モデルサイズを削減し、推論速度を向上させる技術です。しかし、その実装アプローチと最適化対象が方式によって大きく異なります。

1. GGUF (GPT-Generated Unified Format)

主な特徴: llama.cppを中心としたエコシステムで使用される形式。CPUでの推論、特にメモリ制限のある環境で強みを発揮します。もともとGGMLと呼ばれていましたが、より拡張性の高いGGUFに進化しました。

動作の仕組み: モデル全体を事前に量子化し、単一のファイルに保存します。推論時は、llama.cppというC++で書かれた軽量な推論エンジンがこのファイルを直接読み込み、CPUの命令セット（AVX2, AVX512等）を活用して高速に処理します。GPUサポート（CUDA, Metal）もありますが、主眼はCPUです。

2. GPTQ (GPT Quantization)

主な特徴: NVIDIA GPUでの推論に最適化された「トレーニング後量子化(Post-Training Quantization)」方式です。重みを量子化する際、元のモデルの出力との誤差を最小化するように最適化する「校正(Calibration)」プロセスを含みます。

動作の仕組み: Transformerブロック内の線形層(Linear Layer)の重みを、一度に1層ずつ量子化します。量子化誤差を、その層の残りの重みで補正するため、精度の低下が比較的少ないと言われています。推論には、専用のカーネル（auto_gptq や exllama ライブラリ）が必要です。

3. AWQ (Activation-aware Weight Quantization)

主な特徴: GPTQと同じくGPU向けの4ビット量子化ですが、「活性化(Activation)」の値に注目して、重要な重みを保護しながら量子化する点が特徴です。論文では、同じビット数でGPTQより高い精度を達成できると報告されています。

動作の仕組み: モデルへの入力サンプル（活性化）を観察し、出力に大きな影響を与える「重要な重み」を特定します。これらの重みは量子化の影響を受けにくい高い精度で保持し、それ以外の重みを積極的に量子化します。推論には、vLLM や AWQ 専用のカーネルが利用されます。

解決方法：ユースケース別の選択ガイドと実装手順

以下のフローチャートに従って、最適な方式を選択してください。

1. 実行環境は？ → 「CPUメイン」なら GGUF 一択。
Mac（Metal）やIntel/AMD CPU、メモリが限られた環境（例：Google Colabの無料ティアのCPU）ではGGUFが最も安定して動作します。

# GGUFモデルのダウンロードとollamaでの実行例（最も簡単）
# Hugging Faceからモデルを探す（例：TheBloke/Llama-2-7B-Chat-GGUF）
# ollamaの作成（Modelfileを作成）
FROM /path/to/llama-2-7b-chat.Q4_K_M.gguf
# 作成と実行
ollama create my-llama -f ./Modelfile
ollama run my-llama

2. 実行環境は？ → 「NVIDIA GPUメイン」なら、次へ。
Windows/LinuxでRTX 3090, 4090, 消費系GPU等を持っている場合。

3. 最大の優先事項は？ → 「とにかく最高精度」なら AWQ を試す。
研究や品質が最優先のアプリケーションでは、AWQが良い選択肢です。Hugging Faceのモデルハブで「AWQ」タグを検索します。

# AWQモデルの推論例 (vLLMを使用)
from vllm import LLM, SamplingParams
llm = LLM(model="TheBloke/Llama-2-7B-Chat-AWQ", quantization="awq")
outputs = llm.generate(["Hello, my name is"], SamplingParams(temperature=0.8))
print(outputs[0].outputs[0].text)

4. 最大の優先事項は？ → 「互換性と速度」なら GPTQ を選ぶ。
GPTQはAWQより歴史が長く、サポートするツール（Text Generation WebUI, exllama等）が豊富で、特にWindows環境での互換性が高いです。

# GPTQモデルのロード例 (transformers + auto_gptq)
from transformers import AutoTokenizer, pipeline
from auto_gptq import AutoGPTQForCausalLM

model_name = "TheBloke/Llama-2-7B-Chat-GPTQ"
model = AutoGPTQForCausalLM.from_quantized(model_name, device="cuda:0")
tokenizer = AutoTokenizer.from_pretrained(model_name)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe("Hello, I am")
print(result[0]['generated_text'])

5. 迷ったら？ → まずは GGUF の Q4_K_M バージョンを試す。
これは精度と速度のバランスが非常に良いプリセットで、多くのモデルで提供されており、CPU/GPU両方で問題なく動作するため、最初の試用に最適です。

コード例・コマンド例：主要ツール別の実践コマンド

GGUF を llama.cpp で直接実行

# llama.cppのビルド（初回のみ）
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

# GGUFモデルファイルのダウンロード（例）
# wgetなどでTheBlokeなどのページからファイルを取得

# 推論の実行（CPU）
./main -m ../models/llama-2-7b-chat.Q4_K_M.gguf -p "こんにちは" -n 128

# GPUオフロードを有効にする（一部の層をGPUで処理）
./main -m ../models/llama-2-7b-chat.Q4_K_M.gguf -p "こんにちは" -ngl 40

GPTQ を Text Generation WebUI で使用

# Text Generation WebUI (oobabooga) の起動コマンド例
# インストール後、以下の引数で起動。モデルは自動でダウンロード可能。
python server.py --auto-devices --gptq-bits 4 --gptq-model-type Llama
# Web UI上でモデル名「TheBloke/Llama-2-7B-Chat-GPTQ」を選択してロード

AWQ モデルの変換と確認

# オリジナルモデルからAWQ量子化を実行する例（高負荷）
# 通常は事前量子化済みモデルを使うことをお勧めします
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = 'meta-llama/Llama-2-7b-hf'
quant_path = './llama2-7b-awq'

model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 量子化の実行
model.quantize(tokenizer, quant_config={'zero_point': True, 'q_group_size': 128, 'w_bit': 4})

# 量子化モデルの保存
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

まとめ・補足情報

方式別の最終比較表：

GGUF: 強み＝CPU/低メモリ環境、単一ファイル、エコシステム豊富（ollama, llama.cpp）。弱み＝GPUでの最大スループットは他方式に及ばない場合がある。
GPTQ: 強み＝NVIDIA GPUでの高速推論、広範なツールサポート。弱み＝校正データが必要、CPUでは非効率。
AWQ: 強み＝理論上最高の精度（4ビット）、活性化を考慮したスマートな量子化。弱み＝比較的新しく、サポートツールがGPTQより限定的。

重要な補足：

1. 量子化の「ビット数」と「バリエーション」に注意：Q2_K, Q4_0, Q4_K_M, Q8_0 (GGUF) や、4bit-128g, 4bit-32g (GPTQ) などがあります。数字が小さいほど軽量・高速ですが精度は低下します。中間的なプリセット（Q4_K_M）が無難な選択です。

2. **ハードウェア固有の問題：** 最新の消費系GPU（RTX 40シリーズなど）では、すべての方式が問題なく動作する傾向にあります。しかし、企業向けGPU（A100, H100）や古いGPU（GTX 16シリーズ）では、カーネルのサポート状況を確認する必要があります。

3. **動向：** 技術は急速に進化しています。ExLlamaV2、BitsandBytes（NF4）など、新しい方式も登場しています。基本となるGGUF、GPTQ、AWQのコンセプトを理解しておけば、新しい技術にも対応できるでしょう。

最初は、自分のハードウェア環境に合った方式を一つ選び、そのエコシステム（例：GGUFならollama、GPTQならText Generation WebUI）を深く理解することが、LLM活用の近道となります。