Stable Diffusionで2枚の画像を合成

Stable Diffusionで2枚の画像を合成したいとき、単純に画像を重ねるだけでよいのか、img2imgやInpaintを使うべきなのか、ControlNetやIP-Adapter、Regional Prompter、OpenPoseまで必要なのか迷いますよね。

特に、人物画像と背景画像の合成、複数人合成、マスク指定、コラ画像作成、プロンプト調整、構図固定、参照画像の使い方は、検索しても方法が分かれていて混乱しやすい部分です。ここ、気になりますよね。

この記事では、Stable Diffusionで2枚の画像を自然に合成するための考え方を、初心者でも判断しやすい順番で整理します。あなたが今やりたい合成が、Inpaint向きなのか、ControlNet向きなのか、それとも画像編集ソフトと併用すべきなのかを見極められるようになります。

なお、Stable Diffusionの環境や拡張機能、各モデルの利用条件は更新されることがあります。正確な情報は公式サイトをご確認ください。商用利用や人物画像の扱いなど、権利や契約に関わる最終的な判断は専門家にご相談ください。

この記事のポイント

2枚の画像を合成する基本手順
img2imgやInpaintの使い分け
ControlNetやIP-Adapterの活用法
失敗しやすい合成の改善ポイント

Stable Diffusionで2枚の画像を合成
Stable Diffusionの2枚画像合成方法

Stable Diffusionで2枚の画像を合成

まずは、Stable Diffusionで2枚の画像を合成する時の基本的な考え方を整理します。重要なのは、Stable Diffusionを単なる貼り付けツールとして使うのではなく、元画像の構図や雰囲気を保ちながら再生成する道具として使うことです。

2枚の画像をきれいに合わせるには、画像編集ソフト、img2img、Inpaint、ControlNet、IP-Adapterなどを目的別に使い分ける必要があります。ここでは、まず全体像として「どんな時に何を使うのか」を押さえながら、実際の作業で迷いやすいポイントを順番に見ていきます。

img2imgで画像合成する流れ

img2imgは、元になる画像を読み込ませ、その画像の構図や雰囲気を参考にしながら新しい画像を生成する方法です。2枚の画像を合成したい場合は、最初からStable Diffusionだけで完璧な配置を狙うより、先に画像編集ソフトなどで2枚を大まかに並べて、仮の合成画像を作ってからimg2imgに入れる流れが扱いやすいです。ここを飛ばすと、人物の位置がずれたり、背景と人物のサイズ感が合わなかったりしやすいんですよ。

たとえば、左に黒い服のキャラクター、右に白い服のキャラクターを配置したい場合、まずそれぞれを別々に生成します。その後、Photoshop、GIMP、Canva、ペイント系アプリなどで横に並べ、重なり方や身長差、足元の位置を調整します。この段階では、境界が多少不自然でも問題ありません。目的は完成画像を作ることではなく、Stable Diffusionに「こういう配置にしたい」と伝えるための下絵を作ることだからです。

仮合成画像を作ったら、img2imgに読み込み、プロンプトで完成形の情報を補います。人物の特徴、服装、背景、画風、ライティング、画質に関する指定を入れ、ネガティブプロンプトには低品質や崩れを避ける語句を入れます。この時に大切なのが、元画像をどれくらい残すかを決めるDenoising strengthです。数値を低めにすると仮合成画像に近くなり、数値を高めにするとプロンプトの影響が強くなります。

一般的な目安として、配置をあまり崩したくない時は低めから試すのが安全です。逆に、背景色の差や画像のつぎはぎ感をしっかりなじませたい時は、少し高めにする必要が出てくるかもしれません。ただし、数値を上げすぎると、せっかく配置した人物の向きや距離感まで変わることがあります。なので、最初から大きく変えるのではなく、少しずつ試すのがおすすめです。

img2imgで失敗しにくい手順

手順	作業内容	意識するポイント
素材を用意	人物画像や背景画像を別々に準備する	画風と解像感が近い画像を選ぶ
仮合成	画像編集ソフトで大まかに配置する	足元、顔の高さ、重なりを整える
img2img	仮合成画像を読み込んで再生成する	Denoising strengthを低めから試す
部分修正	崩れた箇所をInpaintで直す	一度で全部直そうとしない

img2imgは、2枚の画像をそのまま正確に貼り合わせる機能ではありません。仮合成した画像をもとに、1枚の自然な画像として再生成する方法だと考えると失敗を減らせます。

ただし、元画像の人物や背景を完全に維持したい場合、img2imgだけでは変化が大きくなりすぎることがあります。顔をなるべく残したい、服装だけ変えたい、背景だけなじませたいなど、残したい要素がはっきりしている場合は、Inpaint、ControlNet、IP-Adapterなどを組み合わせた方が目的に近づけやすいです。img2imgは便利ですが、万能ではないので、まずは「全体をなじませる工程」として使うのがちょうどいいかと思います。

Inpaintで一部を差し替える

Inpaintは、画像の一部分だけを塗りつぶし、その範囲をプロンプトに沿って再生成する方法です。2枚の画像を合成する目的で使う場合は、背景画像の一部に別の人物や物体をなじませたい時、または仮合成した画像の境界だけを自然に直したい時に向いています。全体を再生成するimg2imgと違って、Inpaintは「ここだけ変えたい」という指定ができるので、元画像の良い部分を残しやすいです。

たとえば、背景画像の中に人物を追加したい場合、人物を置きたい範囲をマスクで指定し、その範囲に人物の特徴をプロンプトで書きます。すでに人物画像がある場合は、先に透過PNGとして背景に重ねてから、人物の輪郭、影、足元、髪の境界だけをInpaintで整える方法もあります。このやり方だと、人物そのものを大きく変えずに、背景とのなじみだけを改善しやすいです。

Inpaintで大切なのは、マスク範囲を広げすぎないことです。範囲が広すぎると、残したい背景や元画像の雰囲気まで変わってしまいます。逆に狭すぎると、境界が不自然になりやすいです。特に髪の毛、手、足元、服のフリル、レース、半透明素材のような細かい部分は、ぴったり塗るより少し余白を持たせた方が自然になることがあります。

ここでよくある失敗は、人物を追加したいのに顔まで崩れるケースです。これは、マスク範囲に顔を含めすぎているか、Denoising strengthが強すぎることが原因になりやすいです。顔を残したい時は、顔をマスクから外す、または顔周辺だけ別工程で修正するのが安全です。手や指も崩れやすいので、一度に直そうとせず、手だけ小さくマスクしてInpaintする方がうまくいくことがあります。

Inpaintが向いている合成パターン

背景の一部に人物や物体を追加したい場合
仮合成した画像の境界だけを自然にしたい場合
服装や小物など一部の要素だけを差し替えたい場合
画像内のテレビ画面やスマホ画面に別画像風の内容を入れたい場合
足元の影や接地感だけを整えたい場合

人物の顔、手、服のロゴ、著作物に近い要素を扱う場合は、権利や利用規約に注意してください。特に実在人物の写真や商用素材を使う場合は、使用許諾や肖像権の確認が必要です。

Inpaintは、服だけ変える、画面内の一部を別画像風にする、余計な物を消す、背景の一部を作り直すといった用途にも使えます。2枚の画像を完全に合体させるというより、必要な部分だけを自然に置き換える使い方に強い方法です。私は、2枚合成では最初にimg2imgで全体をなじませ、その後にInpaintで境界や崩れたパーツを直す流れが一番扱いやすいと感じています。

なお、Inpaintで生成した画像を公開・販売する場合は、使用しているモデル、LoRA、元画像素材のライセンスを必ず確認してください。Stable Diffusion系モデルの利用条件はモデルごとに異なります。商用利用や配布を考えている場合は、出典：Stability AI「Community License Agreement」など、利用しているモデルの公式ライセンス情報を確認したうえで、最終的な判断は専門家にご相談ください。

ControlNetで構図を固定する

ControlNetは、元画像の輪郭、線画、深度、ポーズなどを条件として使い、生成結果をコントロールしやすくする仕組みです。Stable Diffusionで2枚の画像を合成する場合、特に役立つのは、人物の位置関係や全体の構図を保ちたい場面です。プロンプトだけで「2人を背中合わせにする」「背景の奥に人物を立たせる」「スマホ画面の中に別の画像を表示する」と指定しても、毎回狙い通りになるとは限りません。ここ、かなり悩みやすいところです。

たとえば、2人のキャラクターを背中合わせにしたい、左右の人物の立ち位置を固定したい、背景の奥行きを保ったまま人物をなじませたいといったケースでは、プロンプトだけで狙うよりControlNetを使った方が安定します。仮合成した画像をControlNetに読み込ませると、Stable Diffusionに「この配置を参考にして」と伝えられるため、人物同士の距離感や体の向きが崩れにくくなります。

よく使う候補としては、線を拾いたいならLineartやCanny、人物の骨格を固定したいならOpenPose、背景や物体の大まかな構造を保ちたいならDepthやTileが挙げられます。どれを使うかは、合成したい画像の内容によって変わります。輪郭を重視するならLineart、シルエットやエッジを重視するならCanny、人物の姿勢を重視するならOpenPose、全体の質感や細部を保ちたいならTileという感じで選ぶと考えやすいです。

たとえば、画像編集ソフトで2枚を重ねた仮画像を作り、それをControlNet Lineartに入れると、合成後の輪郭や配置をある程度保ちやすくなります。さらにIP-Adapterを併用すれば、参照画像の雰囲気も加えやすくなります。つまり、ControlNetは「形や配置」、IP-Adapterは「雰囲気や特徴」、プロンプトは「何を描くか」を担当させるイメージです。

ControlNetの選び方

ControlNetの種類	向いている場面	2枚合成での使い方
Lineart	線画や輪郭を保ちたい時	仮合成画像の外形を保ちながら再生成する
Canny	エッジを強めに反映したい時	背景と人物の配置を崩しにくくする
OpenPose	人物の姿勢を固定したい時	複数人の立ち位置やポーズを合わせる
Depth	奥行きを保ちたい時	背景と人物の距離感をなじませる
Tile	質感や細部を補いたい時	背景や人物の雰囲気を保って合成する

ControlNetを使う時は、どの情報を固定したいのかを先に決めるのが大切です。ポーズを固定したいのにLineartだけ使っても不十分ですし、背景の奥行きを保ちたいのにOpenPoseだけ使っても効果は限定的です。

人物の配置や複数キャラの描き分けに悩む場合は、Stable Diffusionで2人を描き分ける方法も参考になります。左右の指定や構図固定の考え方を押さえると、2枚合成でも応用しやすくなります。特に、キャラクターごとの髪色や服装が混ざる場合は、ControlNetだけでなくRegional Prompterも組み合わせると改善しやすいですよ。

IPAdapterで参照画像を使う

IP-Adapterは、画像をプロンプトのように参照させるための仕組みです。文章だけでは伝えにくい顔の雰囲気、服の質感、配色、画風、構図のニュアンスなどを、参照画像から取り込みたい時に使います。2枚の画像を合成する時、「片方の画像の雰囲気は残したいけれど、もう片方の背景や構図にも合わせたい」という場面はかなり多いですよね。そういう時にIP-Adapterが役立ちます。

2枚の画像を合成する場合、IP-Adapterは特に、片方の画像の雰囲気を残したい場面で便利です。たとえば、人物画像の顔立ちや服装の方向性を保ちつつ、別の背景になじませたい場合、プロンプトだけで細かく説明するよりも参照画像を使った方が近づきやすいことがあります。髪型、衣装の素材感、キャラクターの雰囲気など、言語化しにくい要素を補えるのが強みです。

ただし、IP-Adapterも万能ではありません。参照画像の影響を強くしすぎると、構図が崩れたり、背景まで引っ張られたりします。逆に弱すぎると、参照画像らしさが残りません。そのため、Control Weightや関連する強度設定を少しずつ変えながら、構図はControlNet、雰囲気はIP-Adapter、内容はプロンプトという役割分担で考えるのが扱いやすいです。

たとえば、人物の顔や服装をある程度残したい場合はIP-Adapterを使い、人物の立ち位置やポーズはControlNetで固定し、背景や全体の演出はプロンプトで指定します。このように分けると、どこが原因で失敗したのかも判断しやすくなります。顔が似ないならIP-Adapterの強度や参照画像を見直す、ポーズがずれるならControlNetを見直す、背景が変わりすぎるならDenoising strengthやプロンプトを調整する、という感じです。

参照画像を選ぶ時のポイント

残したい特徴がはっきり写っている画像を使う
顔を残したいなら顔が大きく見える画像を使う
服装を残したいなら服全体が見える画像を使う
背景まで引っ張られたくない時は人物が分かりやすい画像を選ぶ
画風を寄せたい時は完成イメージに近い参照画像を使う

IP-Adapterを使う時は、参照画像の品質も結果に影響します。ぼやけた画像や情報量が少ない画像より、目的の特徴がはっきり写っている画像の方が扱いやすいです。

画風や絵柄の寄せ方も関係するため、テイストを安定させたい場合はStable Diffusionの絵柄指定で理想の画風へ近づける方法もあわせて確認すると、合成後の違和感を減らしやすくなります。特に、写真風の背景にアニメ調の人物を入れる時や、別々のモデルで生成した画像を合わせる時は、最終的な画風の統一がかなり重要になります。

IP-Adapterは、2枚合成の中で「参照画像らしさ」を支える役割を持ちます。ただし、元画像を完全に再現するための機能ではないので、商用案件や本人確認が必要な用途、実在人物の再現などには慎重な判断が必要です。正確性が求められる画像や権利関係が絡む画像では、最終的な判断は専門家にご相談ください。

Regional Prompterで領域分け

Regional Prompterは、画像の領域ごとに異なるプロンプトを適用したい時に使います。Stable Diffusionで2枚の画像を合成する場合、左右の人物に別々の特徴を指定したい時にかなり役立ちます。複数人を1枚に入れると、髪色、服装、目の色、アクセサリーなどが混ざりやすいんですよね。左のキャラに指定したはずの黒いドレスが右側に出たり、右のキャラの白髪が左側にも混ざったりすることがあります。

たとえば、左側は黒髪で黒いドレス、右側は白髪で白いドレスにしたい場合、通常のプロンプトだけでは色や服装の指定が混ざることがあります。これは、Stable Diffusionがプロンプト全体を1枚の画像に対する指示として解釈するためです。つまり、black hair、white hair、black dress、white dressをまとめて書くと、どの人物にどの属性を割り当てるかが曖昧になりやすいわけです。

Regional Prompterを使うと、画面を左右や上下に分割して、それぞれに別のプロンプトを割り当てられます。左右分割なら、左の領域に黒髪や黒ドレス、右の領域に白髪や白ドレスといった形で指定できます。2枚の画像を合成する時は、仮合成画像の配置に合わせて領域を分けると、キャラクターの属性が整理しやすくなります。

ただし、Regional Prompterは領域を分ける機能なので、境界をまたぐ動作は難しくなりやすいです。手をつなぐ、肩を組む、抱き合う、髪が重なる、服が触れるといった表現では、左右の領域が分かれていることが逆に不自然さにつながることがあります。ここは、かなりクセがある部分です。領域ごとの指定は得意でも、境界をまたぐ相互作用はモデルが混乱しやすいためです。

Regional Prompterを使う時の考え方

目的	設定の考え方	注意点
左右の人物を分ける	Columnsで左右分割する	左右の順番を間違えない
上下で要素を分ける	Rowsで上下分割する	背景と人物の境界に注意する
服装を分ける	人物ごとに服の色や素材を指定する	色の混線が残る場合は表現を強める
髪色を分ける	各領域に髪色を明確に書く	通常プロンプト側に矛盾を入れない

こうした構図では、先にControlNetやOpenPoseでポーズを固定し、Regional Prompterで属性を分ける流れが安定しやすくなります。たとえば、2人の立ち位置と姿勢はOpenPoseで固定し、左右の髪色や服装はRegional Prompterで指定し、全体の雰囲気はimg2imgやIP-Adapterで整える、という組み合わせです。1つの機能で全部解決しようとするより、役割を分ける方がずっと現実的です。

Regional Prompterは、2枚合成そのものの機能というより、合成後の左右や領域ごとの描き分けを助ける機能です。複数人や複数要素を扱う時に特に効果を発揮します。

特に2枚の画像を合成して複数人のシーンを作る場合は、最初に「どの領域に何を出したいか」を紙に書くくらいの感覚で整理すると、プロンプトが組みやすくなります。左に人物A、右に人物B、中央に手、背景は白、などのように分けると、どの機能を使えばよいかも見えやすくなります。

Stable Diffusionの2枚画像合成方法

ここからは、2枚の画像をより自然に合成するための実践的な調整方法を解説します。OpenPose、マスク、背景、複数人、プロンプトの5つを押さえると、失敗原因をかなり切り分けやすくなります。

合成がうまくいかない時は、たいてい「ポーズがずれる」「マスク範囲が合っていない」「背景となじまない」「人物同士の属性が混ざる」「プロンプトが曖昧」のどれかです。ここからは、それぞれの対策をかなり具体的に見ていきます。

OpenPoseで人物ポーズを合わせる

OpenPoseは、人物の骨格やポーズを抽出し、そのポーズに近い画像を生成するための方法です。2枚の画像を合成する際に、人物同士の位置関係や姿勢を合わせたい場合に役立ちます。特に、複数人の画像や全身構図では、プロンプトだけで人物の向きや手足の位置を制御するのが難しいため、OpenPoseのようなポーズ制御が大きな助けになります。

たとえば、背景画像に人物を自然に入れたい時、ただ人物プロンプトを入れるだけでは、立ち位置や向きが安定しません。人物が画面の中央に寄りすぎたり、足元が浮いたり、横を向いてほしいのに正面を向いたりすることがあります。OpenPoseを使うと、人物の骨格を参照できるため、元画像のポーズや配置に近い形で再生成しやすくなります。

2人を背中合わせにしたい、横並びにしたい、片方を手前にしたいといった場合は、最初に簡単なポーズ画像や仮合成画像を作っておくとスムーズです。棒人間のような簡単なポーズでも、構図の目安として使えることがあります。もちろん、完全に狙い通りになるとは限りませんが、少なくともプロンプトだけで試行錯誤するよりは、生成結果の方向性をそろえやすいです。

ただし、OpenPoseは服の形や髪型、背景までは固定しません。あくまで人物の姿勢や骨格を補助するものです。そのため、服装や髪色はプロンプトやRegional Prompterで指定し、背景や輪郭はControlNetの別モデルで補うと、役割が整理されます。OpenPoseだけで「元画像と同じ人物を、同じ服で、別背景に自然に合成する」ことを期待すると、少し無理があります。

OpenPoseで確認したいポイント

人物の向きが目的に合っているか
手足の位置が背景や他の人物と矛盾していないか
全身構図の場合、足元が画面外に切れていないか
複数人の場合、骨格同士が重なりすぎていないか
手をつなぐなど接触部分が無理な角度になっていないか

OpenPoseでポーズを固定しても、手や指の形まで必ずきれいになるわけではありません。手をつなぐ、物を持つ、腕を組むなどの細かい相互作用は、生成後にInpaintで直す前提で考えた方が現実的です。

ポーズだけを変えたい場合の基本は、Stable Diffusionでポーズだけ変える方法で詳しく整理しています。2枚合成でも、ポーズ固定の考え方はそのまま応用できます。特に、背景と人物を別々に生成してから合成する場合、人物のポーズが背景の奥行きや床の角度に合っているかを意識すると、完成度がかなり変わります。

マスク指定で合成範囲を決める

マスク指定は、Stable Diffusionで画像を合成する際の精度を左右する重要な作業です。どこを変えて、どこを残すのかを明確にすることで、必要以上に画像全体が変わるのを防げます。ここが曖昧だと、背景だけ直したいのに人物の顔まで変わったり、服だけ変えたいのに髪型まで変わったりします。かなり地味ですが、合成の成功率を左右する大事な工程です。

たとえば、背景はそのまま残して人物だけを追加したい場合、人物を入れたい範囲だけをマスクします。逆に、人物は残して背景だけを変えたい場合は、背景側をマスクします。ここを曖昧にすると、残したい顔や服まで変わってしまうことがあります。特に、人物の顔、目、手、アクセサリーなどは崩れやすいので、必要がなければマスクに含めない方が安全です。

マスク範囲を決める時は、境界部分に少し余白を持たせるのがコツです。ぴったり塗りすぎると、合成境界が硬く見えやすくなります。髪の毛、服のフリル、影のように輪郭が複雑な部分は、やや広めにマスクした方が自然になじむことがあります。一方で、広げすぎると元画像の情報が失われるので、残したい部分と変えたい部分の境界を見極める必要があります。

また、マスク指定では「何を新しく生成するか」だけでなく、「どの部分を残すか」を意識することが大切です。初心者のうちは、変えたい部分ばかりに意識が向きますが、実際には残す部分の方が重要です。合成画像では、背景の雰囲気や人物の顔、衣装のディテールなど、残したい要素が多いほど、マスク範囲を慎重に決める必要があります。

マスク範囲の決め方

目的	マスクする範囲	注意点
人物を追加	人物を置く範囲と周辺の余白	足元や影まで含めると自然になりやすい
服だけ変更	服の範囲	顔や髪を含めないようにする
背景だけ変更	人物以外の背景	髪の輪郭周辺は少し余白を取る
境界をなじませる	合成した境界周辺	細く塗りすぎると効果が出にくい
手足を修正	崩れた手足と周辺	狭すぎると違和感が残りやすい

マスクを広げすぎると、元画像の良い部分まで再生成されます。特に顔や手など崩れやすい部分は、必要がない限りマスクに含めない方が安全です。

合成の品質を上げるには、一度で完成させようとせず、人物、服、影、背景の境界というように段階的にInpaintする方法も有効です。1回の生成で大きく変えようとするほど、意図しない変化が起きやすくなります。私なら、まず大まかな合成、次に境界、最後に顔や手などの細部という順番で進めます。その方が失敗しても戻りやすいですし、どこを直せばいいかも分かりやすいですよ。

背景合成で違和感を減らす

背景合成で違和感が出る原因の多くは、光の向き、画風、解像感、カメラ距離、影の付き方がそろっていないことです。2枚の画像をただ重ねるだけだと、人物だけが浮いて見えたり、背景だけ別の絵柄に見えたりします。ここ、かなり目立つんですよね。人物がきれいに生成できていても、背景となじんでいないだけで一気にコラ画像っぽく見えてしまいます。

Stable Diffusionで背景と人物をなじませるには、まず背景画像と人物画像の情報を分けて考えます。背景の雰囲気を残したい場合は、背景側をControlNetやimg2imgで参照します。人物の特徴を残したい場合は、人物側をIP-Adapterやプロンプトで補います。背景も人物も同時に完璧に残そうとすると、設定が複雑になりすぎるので、優先順位を決めるのが大切です。

背景が写真で人物がイラストの場合、そのまま合成すると不自然になりやすいです。この場合は、背景を少しイラスト調に寄せるか、人物をリアル寄りにするか、どちらかに方向性をそろえると自然になります。2枚の画像の画風を合わせることは、合成の自然さに直結します。写真風、アニメ風、厚塗り風、3D風など、どの方向に統一するかを先に決めておくと調整しやすいです。

また、影の処理も重要です。人物を背景に置いた時、足元や接地面に影がないと、切り貼り感が出ます。Inpaintで足元周辺だけを再生成したり、プロンプトにshadow、natural lighting、ambient lightなどを加えたりすると、なじみやすくなることがあります。特に室内背景では、光源の方向と影の方向が合っていないと違和感が出やすいです。

背景合成では、人物のサイズ感もかなり重要です。背景の奥行きに対して人物が大きすぎると、合成感が強くなります。逆に小さすぎると、背景に埋もれてしまいます。地面や床が見えている画像では、足元の位置、床のパース、カメラの高さを意識すると自然になりやすいです。人物の目線の高さと背景の水平線が大きくずれている場合も、不自然さの原因になります。

背景となじませるチェックリスト

人物と背景の画風が近いか
光の向きが大きく矛盾していないか
足元に自然な影があるか
人物のサイズが背景の奥行きに合っているか
解像感や線の太さが極端に違っていないか
背景だけぼやけすぎたり人物だけ鮮明すぎたりしていないか

背景合成では、同じモデルで作った画像同士の方がなじみやすい傾向があります。モデルやLoRAが違う画像を合成する場合は、最終的にimg2imgで全体を軽く再生成すると統一感を出しやすいです。

もし背景と人物の画風がどうしても合わない場合は、無理に1回で仕上げず、背景だけを先に希望の画風へ変換してから人物を合成する方法もあります。逆に、人物側を背景に合わせるのもありです。どちらを変えるべきかは、残したい要素で決めましょう。背景が主役なら人物を寄せる、人物が主役なら背景を寄せる。この考え方を持っておくと、設定で迷いにくくなります。

複数人合成で顔を整える

複数人を1枚に合成する場合、顔の崩れや属性の混線が起きやすくなります。左の人物の髪色が右に混ざる、服装が入れ替わる、顔が似すぎる、手足が絡んで不自然になるといった失敗はよくあります。1人ならうまくいくのに、2人にした瞬間に崩れるというのは、Stable Diffusionではかなり起こりやすいです。ここでつまずく人は多いかと思います。

この場合、まず人物の配置を固定し、次に属性を分け、最後に顔や手を修正する流れがおすすめです。構図はControlNet、左右の特徴はRegional Prompter、細部の修正はInpaintというように分担すると、原因を切り分けやすくなります。最初から1枚のプロンプトで全部を制御しようとすると、髪色、服装、ポーズ、表情、背景が混ざってしまい、どこを直せばいいか分からなくなります。

顔を整える時は、顔だけを小さくマスクしてInpaintする方法が使いやすいです。ただし、マスク範囲が狭すぎると顔だけ浮いて見えます。髪の生え際や首元まで含めるかどうかは、元画像の崩れ方を見て調整します。顔のパーツだけを直したいのか、顔全体の印象を変えたいのかで、マスク範囲も変わります。

また、2人の人物を合成する時は、プロンプト内でleft girl、right girlのように指定するだけでは安定しない場合があります。日本語で考えるなら、左側の人物、右側の人物と役割を分ける意識が必要です。Regional Prompterを使う場合も、分割方向とプロンプトの順番を間違えると、左右が逆になることがあります。生成前に、どのBREAKがどの領域に対応しているかを確認しておくと安心です。

複数人合成でさらに難しいのが、人物同士の接触です。手をつなぐ、肩に手を置く、腕を組む、抱き合うといった動作は、手や腕の構造が破綻しやすいです。こうした場合は、最初から完璧に出すより、構図を固定した後に手の部分だけInpaintで修正する方が現実的です。手の修正では、マスク範囲を手首から指先まで少し広めに取り、プロンプトでhand、holding hands、natural fingersなどを補うと改善しやすいことがあります。

複数人合成の修正順序

全体の構図と人物の位置を決める
髪色や服装など人物ごとの属性を分ける
顔の崩れを個別に修正する
手足や接触部分をInpaintで整える
最後に全体の画風と背景のなじみを確認する

複数人合成では、最初から完璧な1枚を狙うより、全体構図、人物の描き分け、顔の補正、手足の補正という順番で仕上げる方が安定します。

顔を整える時には、顔を美しくするための補助機能やアップスケーラーを使う選択肢もあります。ただし、過度に補正すると元の人物らしさが薄れたり、顔だけ別画像のように見えたりします。特に実在人物に似せる用途では、肖像権や利用規約の確認が必要です。公開や商用利用をする場合は、正確な情報は公式サイトをご確認ください。最終的な判断は専門家にご相談ください。

プロンプト調整のコツ

Stable Diffusionで2枚の画像を合成する時、プロンプトは単に要素を並べるだけでは不十分です。合成では、残したいもの、変えたいもの、混ぜたくないものを明確に書く必要があります。ここ、かなり大事です。プロンプトが曖昧だと、Stable Diffusionは全体をそれっぽく解釈してしまうため、左右の人物の属性が混ざったり、背景まで変わったりします。

たとえば、2人のキャラクターを背中合わせにしたい場合は、2 girls、back to back、profile、standingのように構図を先に書きます。そのうえで、左側の人物と右側の人物の特徴を分けます。黒髪、白髪、黒いドレス、白いドレスのような対になる要素は、混ざりやすいので注意が必要です。単にblack hair、white hairと並べるだけでは、どちらの人物にどちらの髪色を割り当てるかが不安定になる場合があります。

服の色が混ざる場合は、black dressだけでなく、dark black dress、black lace dressのように強めに言い換えることがあります。逆に、白い服に黒いレースが混ざる場合は、不要な色や要素をネガティブプロンプト側で抑える方法もあります。ただし、ネガティブプロンプトを強くしすぎると、必要な表現まで消えてしまうことがあるので注意してください。

プロンプト調整で意識したいのは、構図、人物属性、画風、品質、除外要素を分けて考えることです。これらを1文に詰め込みすぎると、どの部分が効いているのか判断しにくくなります。私は、合成用のプロンプトでは、まず全体構図、次に人物ごとの特徴、次に背景、最後に品質指定という順番で組むのが分かりやすいと思っています。

プロンプトを組む順番

最初に人数や構図を指定する
次に左右や前後など位置関係を指定する
人物ごとの髪色、服装、表情を分ける
背景や光の雰囲気を補足する
最後に品質指定とネガティブプロンプトを調整する

目的	使いやすい指定例	注意点
構図を固定	back to back、standing、profile	ControlNetと併用すると安定しやすい
左右を分ける	left side、right side、Regional Prompter	通常プロンプトだけでは混ざる場合がある
画風を統一	same style、anime illustration、natural lighting	元画像の画風差が大きいと調整が必要
崩れを抑える	worst quality、low quality、bad hands	強すぎる除外指定は表現を狭めることがある

プロンプトは、長ければ良いというものではありません。合成では、必要な指示を分かりやすく整理することが大切です。うまくいかない時は、要素を足すだけでなく、余計な指示を減らすことも試してください。

なお、プロンプトやモデルの挙動は環境によって変わります。数値や設定はあくまで一般的な目安として扱い、生成結果を見ながら少しずつ調整してください。特にモデル、VAE、LoRA、ControlNetの種類、Sampler、CFG Scale、Denoising strengthの組み合わせによって、同じプロンプトでも結果が変わります。最初から正解を探すというより、失敗原因を1つずつ切り分けながら調整する感覚が大切です。

Stable Diffusionで2枚画像合成を成功させる

Stable Diffusionで2枚画像合成を成功させるには、最初に目的を決めることが大切です。2枚を単純に重ねたいのか、背景に人物を入れたいのか、2人のキャラクターを1枚にまとめたいのか、画面内の一部だけ差し替えたいのかで、使う機能は変わります。ここを決めずに作業を始めると、img2img、Inpaint、ControlNet、IP-Adapterのどれを使えばよいのか分からなくなりやすいです。

背景に人物を入れるなら、InpaintやControlNet Tileが候補になります。2人の立ち位置を固定したいなら、ControlNetやOpenPoseが役立ちます。左右の人物を描き分けたいなら、Regional Prompterを検討します。参照画像の雰囲気を残したいなら、IP-Adapterを組み合わせると効果的です。つまり、合成の成功は「便利な機能をたくさん使うこと」ではなく、目的に合う機能を選ぶことで決まります。

実務的には、最初に画像編集ソフトで2枚を大まかに配置し、その仮画像をStable Diffusionでなじませる流れが扱いやすいです。すべてをプロンプトだけで解決しようとすると、位置関係や重なり方が安定しにくくなります。仮合成画像を作ることで、Stable Diffusionに完成形の方向性を伝えやすくなり、試行錯誤の回数も減らしやすくなります。

また、合成では一度で完成を狙わない方がうまくいきます。まず全体の配置を作る、次に画像全体をなじませる、次に境界や影を整える、最後に顔や手などの細部を修正する。この流れにすると、失敗してもどこからやり直せばいいか分かりやすいです。画像生成は偶然性もあるので、1回の生成結果にこだわりすぎず、良い部分を残しながら段階的に完成へ近づけるのがコツです。

目的別のおすすめワークフロー

やりたいこと	おすすめ機能	進め方
2枚を自然に1枚へまとめる	画像編集ソフト、img2img	仮合成を作って全体を再生成する
背景に人物を入れる	Inpaint、ControlNet Tile	人物範囲と境界を段階的に整える
2人の人物を描き分ける	Regional Prompter、ControlNet	構図を固定して領域ごとに属性を分ける
ポーズを合わせる	OpenPose	骨格を参照して人物の姿勢を固定する
参照画像の雰囲気を残す	IP-Adapter	画像の特徴を参照させて画風や印象を寄せる

結論として、Stable Diffusionで2枚の画像を合成することは可能です。ただし、完全な貼り付けソフトではなく、img2img、Inpaint、ControlNet、IP-Adapter、Regional Prompterを目的に応じて組み合わせることで自然な合成に近づける方法です。

最後に、使用する画像の権利には必ず注意してください。実在人物、商用素材、他者のイラスト、キャラクター画像などを扱う場合は、著作権、肖像権、利用規約を確認する必要があります。正確な情報は公式サイトをご確認ください。最終的な判断は専門家にご相談ください。

Stable Diffusionの2枚画像合成は、最初は少し複雑に感じるかもしれません。でも、やることを分解すればかなり分かりやすくなります。配置は画像編集ソフト、全体のなじみはimg2img、部分修正はInpaint、構図固定はControlNet、参照画像の雰囲気はIP-Adapter、左右の描き分けはRegional Prompterです。この役割分担を覚えておけば、あなたが作りたい合成画像に合わせて、必要な機能を選びやすくなるはずです。