【LLM全般】Ollama+ChromaDB+LangChainで構築するローカルRAGシステム：よくあるエラーと解決手順

問題の概要：ローカルRAG構築時の典型的なエラーと課題

大規模言語モデル(LLM)を活用したRAG(Retrieval-Augmented Generation)システムを、Ollama、ChromaDB、LangChainを使ってローカル環境に構築する際、開発者、特に初心者から中級者にかけては、いくつかの共通したエラーや課題に直面します。これらは、環境設定の不備、ライブラリ間のバージョン非互換、データ処理の誤りなどに起因することが多く、プロジェクトの進行を阻害します。具体的には、「モデルのロード失敗」、「ベクトルデータベースとの接続エラー」、「文書の読み込みや分割における問題」、「類似検索が機能しない」、「LangChainチェーンの実行時エラー」などが頻繁に報告されます。本記事では、これらの問題を具体的なエラーメッセージと共に取り上げ、その原因と確実な解決手順を解説します。

原因の解説：なぜエラーが発生するのか？

ローカルRAGシステムの構築は、複数のコンポーネント(Ollama, ChromaDB, LangChain, 文書ローダー等)を連携させるため、各レイヤーで問題が発生する可能性があります。

1. 環境依存とバージョン非互換

最も多い原因は、使用するPythonライブラリのバージョン間の非互換性です。LangChainは更新が頻繁で、ChromaDBやOllama連携用のクライアントライブラリのインターフェースが変更されることがあります。また、Ollama自体のAPI仕様が変わり、古いクライアントコードが動作しなくなるケースもあります。

2. モデル指定とOllamaサーバーの問題

Ollamaで指定するモデル名が間違っている、またはモデルがローカルにダウンロードされていない場合、LLMの呼び出しに失敗します。また、Ollamaサーバーが起動していない、または異なるポートで動作している場合も接続エラーの原因となります。

3. 文書処理パイプラインの不備

PDFやWord文書を読み込むためのライブラリがインストールされていない、文書の文字コードが想定外である、またはテキスト分割（チャンキング）のパラメータ（チャンクサイズ、オーバーラップ）が不適切で、意味のあるチャンクが生成されていない場合、後段の検索精度が著しく低下します。

4. ベクトルDBの永続化とスキーマ問題

ChromaDBのコレクション名が重複している、または永続化パスのパーミッションに問題があると、データの保存・読み込みに失敗します。また、異なる埋め込みモデルで生成したベクトルを同じコレクションに追加しようとすると、次元数不一致などのエラーが発生します。

解決方法：ステップバイステップ構築ガイド

以下に、安定して動作するローカルRAGシステムを構築するための具体的な手順を示します。各ステップで発生しうるエラーとその対処法も含みます。

ステップ1: 環境構築と必要なライブラリのインストール

まず、Python仮想環境を作成し、互換性が確認されているバージョンのライブラリをインストールします。バージョンを固定することが安定性の鍵です。

# 仮想環境の作成と有効化（例）
python -m venv rag_env
source rag_env/bin/activate  # Linux/Mac
# rag_envScriptsactivate  # Windows

# コアライブラリのインストール（バージョン指定推奨）
pip install langchain==0.1.0 langchain-community==0.0.10
pip install chromadb==0.4.22
pip install sentence-transformers  # ローカル埋め込みモデル用
pip install pypdf  # PDFローダー用
pip install ollama  # Ollama Pythonクライアント

# Ollamaのインストール（別途、システムレベルで）
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: https://ollama.com/download からインストーラーを実行

エラー例と解決策: ImportError: cannot import name '...' from 'langchain' というエラーは、LangChainのバージョンが新しすぎる（または古すぎる）場合に発生します。上記のバージョンにダウングレードまたはアップグレードしてください。

ステップ2: Ollamaのセットアップとモデルダウンロード

Ollamaサーバーを起動し、使用するLLMモデルをプル（ダウンロード）します。

# ターミナルでOllamaサーバーが起動していることを確認
# 起動コマンド（通常、インストール時にサービスとして登録される）
ollama serve

# 別のターミナルで、使用するモデルをダウンロード（例: Llama 3.1 8B）
ollama pull llama3.1:8b

# モデルがダウンロードされたか確認
ollama list

エラー例と解決策: Error: connect ECONNREFUSED 127.0.0.1:11434 はOllamaサーバーが起動していないことを示します。サーバーを起動させてください。モデル名が間違っている場合は Error: model 'llama3' not found のようなエラーが出ます。ollama list で正しいモデル名を確認しましょう。

ステップ3: 文書の読み込み、分割、ベクトル化

ここで、LangChainのドキュメントローダーとテキスト分割器、そして埋め込みモデルを使用します。

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings

# 1. 文書の読み込み（例: sample.pdf）
loader = PyPDFLoader("./data/sample.pdf")
documents = loader.load()

# 2. テキストの分割
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # チャンクの文字数（トークン数ではない）
    chunk_overlap=50, # チャンク間のオーバーラップ
    separators=["nn", "n", "。", "、", " ", ""] # 分割するセパレータ
)
split_docs = text_splitter.split_documents(documents)
print(f"元のドキュメント数: {len(documents)}")
print(f"分割後のチャンク数: {len(split_docs)}")

# 3. 埋め込みモデルの準備（ローカルで動作するモデル）
embed_model = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-small" # 軽量で多言語対応
    # model_name="sentence-transformers/all-MiniLM-L6-v2" # 英語特化ならこちら
)

エラー例と解決策: PDFExtractor is not defined などのローダー関連のエラーは、pypdf や unstructured などの依存ライブラリが不足している場合があります。必要に応じて pip install pypdf unstructured を実行してください。また、大きな文書を細かく分割しすぎるとメモリ不足になる可能性があるため、チャンクサイズは調整が必要です。

ステップ4: ChromaDBへの保存とベクトルストアの作成

分割・埋め込み化したドキュメントをChromaDBに永続化します。

from langchain_community.vectorstores import Chroma

# ベクトルストアの作成と永続化
persist_directory = "./chroma_db"
vectordb = Chroma.from_documents(
    documents=split_docs,
    embedding=embed_model,
    persist_directory=persist_directory
)
vectordb.persist() # ディスクに保存
print(f"ベクトルストアが {persist_directory} に保存されました。")

# 後から読み込む場合
# vectordb = Chroma(
#     persist_directory=persist_directory,
#     embedding_function=embed_model
# )

エラー例と解決策: ValueError: Expected embedding dimension ... は、既存のコレクションに異なる次元数のベクトルを追加しようとした時に発生します。新しい実験をする際は、persist_directory を変更するか、プログラム内でコレクション名(collection_nameパラメータ)を変更しましょう。パーミッションエラーが起きる場合は、保存ディレクトリの書き込み権限を確認してください。

ステップ5: 検索とOllama LLMによる回答生成（RAGチェーンの構築）

最後に、LangChainのチェーンを使って、検索と応答生成を組み合わせます。

from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 1. Ollama LLMの準備
llm = Ollama(
    model="llama3.1:8b",
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    temperature=0.2, # 創造性を低めに設定（事実質問向け）
)

# 2. リトリーバーの準備（類似度上位k件を取得）
retriever = vectordb.as_retriever(search_kwargs={"k": 3})

# 3. RAGチェーンの構築
rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff", # シンプルな方法。他に "map_reduce", "refine" など
    retriever=retriever,
    return_source_documents=True, # ソースドキュメントも返す
    verbose=True # 処理の詳細を表示
)

# 4. 質問の実行
query = "この文書で説明されている主要なプロジェクトは何ですか？"
result = rag_chain.invoke({"query": query})
print("nn回答:", result["result"])
print("n参照されたソースドキュメント:")
for i, doc in enumerate(result["source_documents"]):
    print(f"[{i+1}] {doc.page_content[:200]}...") # 最初の200文字を表示

エラー例と解決策: Connection error: ... がOllama呼び出し時に出る場合は、モデル名が正しいか、Ollamaサーバーが動いているかを再確認します。TypeError: 'NoneType' object is not callable のようなLangChain内部のエラーは、多くの場合、ライブラリのバージョン不一致が原因です。また、検索結果が不適切な場合は、search_kwargs={"k": 3} の数値を増やしたり、埋め込みモデルを変更したり、チャンキング方法を見直す必要があります。

まとめ・補足情報

Ollama、ChromaDB、LangChainを用いたローカルRAGシステムの構築は、クラウドAPIへの依存を断ち、データプライバシーを保ちながら高度な質問応答システムを実現する強力な方法です。成功のためには、バージョン管理を徹底すること、各コンポーネントの状態（サーバー起動、モデル存在）を逐一確認すること、そして文書前処理（チャンキング）と適切な埋め込みモデルの選択に時間をかけることが重要です。

本記事で紹介した手順とエラー対処法は、多くの一般的なケースをカバーしています。さらにシステムを発展させるには、より高度なリランキング手法の導入、マルチモーダルデータの対応、あるいはFastAPIなどを用いた簡単なWebインターフェースの追加などが考えられます。まずはこの基本フローを確実に動作させ、各パーツの挙動を理解した上で、ご自身のユースケースに合わせてカスタマイズしていくことをお勧めします。