【LLM全般】Ollama+ChromaDB+LangChainでローカルRAGを構築する手順とよくあるエラー解決法

問題の概要：ローカルRAG構築時の典型的な課題

ローカル環境でRetrieval-Augmented Generation（RAG）システムを構築する際、特にOllama、ChromaDB、LangChainを組み合わせて使用する場合、開発者は以下のようなエラーや課題に頻繁に遭遇します。

ドキュメントの読み込み・分割処理でUnicodeDecodeErrorが発生する
ChromaDBの永続化パス設定が正しく機能せず、データが保存されない
OllamaのローカルLLMがLangChainから呼び出せない（ConnectionError）
類似度検索の結果が空で返ってくる、または関連性の低い結果しか得られない
依存関係のバージョン競合によるインポートエラー

これらの問題は、各コンポーネント間の連携設定やデータ前処理の不備に起因することが多く、初心者から中級者までが躓きやすいポイントです。

原因の解説：なぜこれらのエラーが発生するのか？

ローカルRAG構築時のエラーは、主に以下の4つのカテゴリに分類されます。

1. 環境設定と依存関係の問題

Ollama、ChromaDB、LangChainはそれぞれ独立して開発が進められており、バージョン間の互換性が常に保証されているわけではありません。特にLangChainは更新が頻繁で、過去のコードが突然動作しなくなることがあります。

2. データ前処理の不備

PDFやWord文書など、様々な形式のドキュメントを扱う際、エンコーディング問題やテキスト分割の設定ミスが発生します。適切なチャンクサイズとオーバーラップを設定しないと、検索精度が大幅に低下します。

3. ベクトルデータベースの設定ミス

ChromaDBはデフォルトでインメモリモードで動作するため、永続化を明示的に設定しないとプログラム終了時にデータが失われます。また、コレクション名の指定や埋め込みモデルの選択を誤ると、空の結果が返されます。

4. ローカルLLMとの通信エラー

Ollamaはデフォルトでlocalhost:11434でサービスを提供しますが、LangChainから呼び出す際には正確なモデル名とエンドポイントの指定が必要です。モデル名のタイポやOllamaサービスの未起動が原因で接続エラーが発生します。

解決方法：ステップバイステップの構築手順

ステップ1: 環境構築と依存関係のインストール

まず、必要なパッケージをインストールします。バージョンの競合を避けるため、可能な限り最新の安定版を使用してください。

# 必要なパッケージのインストール
pip install langchain langchain-community chromadb pypdf python-dotenv
pip install sentence-transformers  # ローカル埋め込み用
pip install "unstructured[all]"   # 様々なドキュメント形式のパース用

インストール後、以下のようなバージョン競合エラーが発生する場合があります。

ImportError: cannot import name 'BaseCallbackHandler' from 'langchain.callbacks'

この場合は、LangChainのバージョンをダウングレードするか、インポート文を最新の形式に修正する必要があります。

ステップ2: ドキュメントの読み込みと前処理

サンプルとしてPDFドキュメントを読み込み、適切なサイズに分割します。

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
import os

# エラー例: UnicodeDecodeError: 'utf-8' codec can't decode byte...
# 対策: エンコーディングを指定するか、バイナリモードで読み込む
try:
    loader = PyPDFLoader("path/to/your/document.pdf")
    documents = loader.load()
except UnicodeDecodeError as e:
    print(f"エンコーディングエラー: {e}")
    # 代替方法: バイナリ読み込み
    with open("path/to/your/document.pdf", 'rb') as f:
        # 別のローダーを使用するなどの処理

# テキスト分割の設定
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,      # 各チャンクの文字数
    chunk_overlap=50,    # チャンク間のオーバーラップ
    separators=["nn", "n", "。", "、", " ", ""]  # 日本語に対応したセパレータ
)
chunks = text_splitter.split_documents(documents)
print(f"ドキュメントを {len(chunks)} 個のチャンクに分割しました")

ステップ3: ChromaDBの設定とベクトルストアの作成

永続化ストレージを使用してChromaDBを設定します。

from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

# ローカル埋め込みモデルの設定（日本語対応モデル推奨）
embeddings = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large",  # 多言語対応モデル
    model_kwargs={'device': 'cpu'},  # GPUを使用する場合は 'cuda'
    encode_kwargs={'normalize_embeddings': True}
)

# ChromaDBの永続化設定
persist_directory = "./chroma_db"

# ベクトルストアの作成
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory=persist_directory
)

# 永続化の実行（これを忘れるとデータが保存されない！）
vectorstore.persist()
print(f"ベクトルストアを {persist_directory} に保存しました")

# よくあるエラー: 既存のデータベースへのアクセス時
try:
    # 既存のベクトルストアを読み込む
    vectorstore = Chroma(
        persist_directory=persist_directory,
        embedding_function=embeddings
    )
except Exception as e:
    print(f"ベクトルストアの読み込みエラー: {e}")
    # データベースが壊れている場合は削除して再作成
    import shutil
    if os.path.exists(persist_directory):
        shutil.rmtree(persist_directory)

ステップ4: OllamaのセットアップとLangChain連携

まずOllamaを起動し、モデルをプルします。

# ターミナルでOllamaを起動（別ウィンドウで実行）
# ollama serve

# モデルのダウンロード（例: Llama 2 7B）
# ollama pull llama2:7b

# 日本語対応がより良いモデル（推奨）
# ollama pull qwen:7b  # 日本語性能が比較的良好

次に、PythonからOllamaモデルを使用します。

from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA

# Ollama LLMの初期化（よくある接続エラーに注意）
try:
    llm = Ollama(
        model="qwen:7b",  # ダウンロードしたモデル名と一致させる
        base_url="http://localhost:11434",  # デフォルトURL
        temperature=0.1  # 創造性を低く設定（事実ベースの回答用）
    )
except ConnectionError as e:
    print(f"Ollamaへの接続エラー: {e}")
    print("Ollamaサービスが起動しているか確認してください")
    print("コマンド: ollama serve")

# RAGチェーンの構築
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # シンプルな結合方式
    retriever=vectorstore.as_retriever(
        search_kwargs={"k": 3}  # 上位3件を取得
    ),
    return_source_documents=True,  # ソースドキュメントも返す
    verbose=True  # デバッグ用
)

ステップ5: RAGシステムのテストとクエリ実行

# クエリの実行例
query = "このドキュメントの主要なテーマは何ですか？"
try:
    result = qa_chain.invoke({"query": query})
    
    print("回答:", result["result"])
    print("n参照されたソースドキュメント:")
    for i, doc in enumerate(result["source_documents"][:2]):  # 上位2件を表示
        print(f"n--- ソース {i+1} ---")
        print(f"内容: {doc.page_content[:200]}...")  # 最初の200文字を表示
        if hasattr(doc, 'metadata'):
            print(f"メタデータ: {doc.metadata}")
            
except Exception as e:
    print(f"クエリ実行エラー: {e}")
    # よくあるエラー: モデルが応答しない場合はタイムアウト設定を調整
    llm = Ollama(
        model="qwen:7b",
        base_url="http://localhost:11434",
        timeout=120  # タイムアウトを120秒に延長
    )

コード例：完全なRAGシステム実装

import os
from dotenv import load_dotenv
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA

class LocalRAGSystem:
    def __init__(self, persist_dir="./chroma_db"):
        self.persist_directory = persist_dir
        self.embeddings = None
        self.vectorstore = None
        self.llm = None
        self.qa_chain = None
        
    def initialize_embeddings(self):
        """埋め込みモデルの初期化"""
        self.embeddings = HuggingFaceEmbeddings(
            model_name="intfloat/multilingual-e5-large",
            model_kwargs={'device': 'cpu'},
            encode_kwargs={'normalize_embeddings': True}
        )
        
    def load_and_process_documents(self, file_path):
        """ドキュメントの読み込みと処理"""
        loader = PyPDFLoader(file_path)
        documents = loader.load()
        
        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,
            chunk_overlap=50,
            separators=["nn", "n", "。", "、", " ", ""]
        )
        return text_splitter.split_documents(documents)
    
    def create_vector_store(self, documents, recreate=False):
        """ベクトルストアの作成"""
        if recreate and os.path.exists(self.persist_directory):
            import shutil
            shutil.rmtree(self.persist_directory)
            
        self.vectorstore = Chroma.from_documents(
            documents=documents,
            embedding=self.embeddings,
            persist_directory=self.persist_directory
        )
        self.vectorstore.persist()
        
    def initialize_llm(self, model_name="qwen:7b"):
        """Ollama LLMの初期化"""
        self.llm = Ollama(
            model=model_name,
            base_url="http://localhost:11434",
            temperature=0.1,
            timeout=90
        )
        
    def create_qa_chain(self):
        """QAチェーンの作成"""
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",
            retriever=self.vectorstore.as_retriever(search_kwargs={"k": 3}),
            return_source_documents=True
        )
    
    def query(self, question):
        """質問への回答"""
        if not self.qa_chain:
            raise ValueError("QAチェーンが初期化されていません")
        
        result = self.qa_chain.invoke({"query": question})
        return result

# 使用例
if __name__ == "__main__":
    rag_system = LocalRAGSystem()
    
    # 初期化
    rag_system.initialize_embeddings()
    
    # ドキュメントの処理（実際のファイルパスに置き換えてください）
    chunks = rag_system.load_and_process_documents("sample.pdf")
    
    # ベクトルストアの作成
    rag_system.create_vector_store(chunks, recreate=True)
    
    # LLMの初期化
    rag_system.initialize_llm("qwen:7b")
    
    # QAチェーンの作成
    rag_system.create_qa_chain()
    
    # クエリの実行
    response = rag_system.query("この文書の要約をしてください")
    print("回答:", response["result"])

まとめ・補足情報

Ollama、ChromaDB、LangChainを使用したローカルRAGシステムの構築は、データプライバシーを保ちながら強力な質問応答システムを実現する優れた方法です。成功の鍵は以下のポイントにあります。

重要な注意点

1. モデルの選択: 日本語処理には多言語対応モデル（multilingual-e5-largeなど）を使用し、Ollamaではqwen:7bやllama2:7bなど日本語性能が確認されているモデルを選択してください。

2. エラーハンドリング: 各ステップで適切な例外処理を実装し、デバッグ情報を出力することで、問題の特定と解決が容易になります。

3. パフォーマンス最適化: 大規模なドキュメントを扱う場合は、チャンクサイズとオーバーラップを調整し、検索精度と処理速度のバランスを取ることが重要です。

4. 定期的なテスト: 依存関係の更新後は、必ずシステム全体のテストを行い、互換性の問題を早期に発見してください。

トラブルシューティングチェックリスト

✅ Ollamaサービスが起動しているか（ollama serve）
✅ モデル名が正しく指定されているか
✅ ChromaDBの永続化ディレクトリに書き込み権限があるか
✅ 埋め込みモデルが正しくダウンロードされているか
✅ ドキュメントのエンコーディングが適切か
✅ 必要なポート（11434）が他のプロセスで使用されていないか

このガイドで紹介した手順とコード例を参考に、独自のローカルRAGシステムを構築し、カスタマイズを加えることで、特定のユースケースに最適化されたAIアシスタントを開発することができます。各コンポーネントの設定を調整し、最適なパフォーマンスを見つけることが、成功への近道です。