【Stable Diffusion】SDXLで高品質な日本語テキスト画像を生成するプロンプト

導入

Stable Diffusion XL (SDXL) は驚くほど高品質な画像を生成しますが、日本語のテキストを画像内に正確に描画しようとすると、文字が崩れたり、意味不明な記号の羅列になったり、あるいは全く異なる文字が生成されてしまうことが頻繁に発生します。「美しい朝」と入力したつもりが、訳の分からない字形やランダムな線画として出力され、期待通りの結果が得られないことに悩んでいるユーザーは少なくありません。

本記事では、SDXLのモデルアーキテクチャと学習データの特性を理解した上で、この問題を効果的に解決し、読みやすい日本語テキストを画像に埋め込むための具体的なプロンプトテクニックと手法を詳しく解説します。最終的には、ポスター、ロゴ、バナーなど、テキストが重要な要素となる画像を自在に生成できるようになることを目指します。

原因の説明

SDXLが日本語テキストの生成に苦戦する根本的な原因は、主に以下の2点に集約されます。

学習データの偏り: Stable Diffusionシリーズの基盤となる大規模学習データセット（例：LAION）は、英語を中心とした西洋言語のテキストが圧倒的に多くを占めています。そのため、モデルはアルファベットの形状や配置に関する「言語的知識」を豊富に持ちますが、漢字、ひらがな、カタカナといった複雑な字形とその構成規則（画数、部首、送り仮名など）を十分に学習できていません。
トークン化の課題: テキストエンコーダ（CLIP）がプロンプトを処理する際、日本語はサブワードトークン化されます。例えば一つの漢字が複数のトークンに分割されることがあり、これが画像デコーダ（U-Net）に対する一貫性のある指導を困難にし、結果として字形の崩れや結合不良を引き起こします。

つまり、モデルは「『朝』という概念」を視覚化することはできても、「『朝』という特定の文字形状」を精密に再現するための十分なデータと動機づけを持っていないのです。

解決方法

ここからは、段階的に日本語テキスト生成の精度を高める実践的な手法を紹介します。これらの方法を組み合わせることで効果が倍増します。

方法1: 詳細なプロンプトエンジニアリングとネガティブプロンプトの活用

最も基本的かつ強力な方法は、プロンプト自体でモデルを強く誘導することです。目的の文字を直接生成させるのではなく、その文字が「記述されている」状況や媒体を詳細に指定します。同時に、文字の崩れを引き起こす要素をネガティブプロンプトで排除します。

基本形プロンプトの例:

(masterpiece, best quality, ultra-detailed), [目的の日本語テキスト] written in clean, bold, professional Japanese characters on a white signboard, perfect typography, legible text, sharp edges
Negative prompt: messy text, deformed characters, blurry letters, unreadable, extra strokes, missing strokes, bad typography, watermark, signature, ugly

応用例 (「喫茶店」の看板画像を生成):

(photorealistic, 8k, detailed), a traditional japanese kissaten signboard hanging on a brick wall, the words "喫茶店" are written in perfect, clear, black Japanese calligraphy (shodo) style, centered, clean background, studio lighting
Negative prompt: messy kanji, fake letters, gibberish text, poor strokes, lowres, bad anatomy, blurry

この方法の核心は、written in, perfect typography, legible text などのキーワードで「文字の品質」自体をプロンプトの主題の一つにすること、そして signboard, document, screen capture など文字が存在するべき文脈を提供することにあります。

方法2: ControlNet（Scribble / Canny）を用いた構造の強制

プロンプトだけに頼るのではなく、画像の構造を事前に定義することで、モデルの出力を厳密にコントロールする方法です。ここでは、目的の日本語テキストを含んだ下絵（ラフスケッチ）を用意し、ControlNetを通してSDXLにその構図を遵守させます。

手順:

Photoshopや簡単なペイントツールで、白地に黒の太字ではっきりと「応援」などと書かれた画像（解像度は1024×1024推奨）を作成します。文字部分は塗りつぶされたシルエットで構いません。
Stable Diffusion WebUI (Automatic1111やComfyUI) で、SDXLモデルを選択します。
ControlNetユニットを有効にし、先ほど作成した下絵画像をアップロードします。
プリプロセッサーは invert (from white bg & black line) または none（既に白黒反転している場合）を選択し、モデルは control_v11p_sd15_scribble またはSDXL用のScribbleモデルがあればそれを、なければ control_v11f1p_sd15_depth などでも代用可能です。
プロンプトには、方法1で述べた詳細な描写（例: “a motivational poster with the text ‘応援’ in solid red, modern sans-serif font”）を入力し、生成します。

この手法により、文字の位置と大まかな形状は下絵に固定され、モデルはその範囲内で「文字らしい質感とスタイル」を生成するタスクに集中できるため、字形の崩壊を大幅に防げます。

方法3: LoRA / Textual Inversionによるカスタム文字スタイルの学習

特定のフォントやロゴなど、非常に正確で一貫性のある日本語テキスト表現が必要な場合には、少数の画像データセットを用いて補助モデル（LoRA）や埋め込み（Textual Inversal）を学習させるのが最終的な解決策となります。これにより、モデルに新たな「文字の見え方」の概念を教え込むことができます。

簡易的なLoRA学習の概要:

# 学習データ準備例
# データセットディレクトリ構造
# /train_data/
#   /img_1.png (「勝利」という文字が明確に書かれた画像)
#   /img_1.txt (プロンプト: "victory text in bold japanese characters")
#   /img_2.png
#   /img_2.txt
#   ...

# Kohya_ss などのトレーニングスクリプトを使用した学習コマンド例
accelerate launch train_network.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --train_data_dir="/path/to/train_data" \
  --output_dir="/path/to/output_lora" \
  --network_module=networks.lora \
  --network_dim=32 \
  --learning_rate=1e-4 \
  --mixed_precision="fp16" \
  --max_train_steps=1000 \
  --save_every_n_epochs=1

学習後、生成時にこのLoRAを適用し、トリガーワード（例: <lora:japanese-bold-font:1>）を使用することで、学習した文字スタイルを再現できます。学習データには、背景が単純で文字がくっきりとした画像を10〜20枚程度用意し、キャプションファイル(.txt)でその内容を正確に記述することが成功の鍵です。

まとめ

SDXLで高品質な日本語テキスト画像を生成するには、モデルの限界を理解し、複数のアプローチを組み合わせることが重要です。まずは方法1の詳細なプロンプトとネガティブプロンプトで基礎的な字形の崩れを抑制し、より正確な配置や複雑なレイアウトが必要な場合は方法2のControlNetで構造を固定します。最終的には、特定のフォントやロゴを繰り返し使用する必要がある場合に方法3のLoRA学習を検討するという段階的な活用が推奨されます。

追加のTips:

生成解像度はSDXLのネイティブ解像度である1024×1024を基本とし、文字が小さくなりすぎないようにします。
CFG Scale（プロンプトへの忠実度）は7〜12程度に設定すると、プロンプトの指示と画像の品質のバランスが取りやすくなります。
「日本語の文字」、「明朝体」、「ゴシック体」など、言語や書体を直接指定するキーワードも有効な場合があります。
どうしても単一の生成で完璧な文字が得られない場合は、複数回生成して最も良い結果を選ぶか、生成後に画像編集ソフトで微調整するという現実的な解決策も念頭に置きましょう。

🚀 プロンプト技術をさらに磨くなら

プロンプトエンジニアリングの実践には、高性能なAIモデルへのアクセスが不可欠です。

ChatGPT Plus — GPT-4o/o1による高度な推論が利用可能
Claude Pro — 長文コンテキストと精密な指示理解に強い