Stable Diffusionのリアルプロンプト例実践集
Stable Diffusionのプロンプト例でリアルな写真風や実写系の画像を作りたいのに、呪文を入れてもアニメっぽくなる、人物の肌や顔が不自然になる、ネガティブプロンプトやモデルの選び方が分からない、と悩むことは多いですよね。
この記事では、realisticやphotorealistic、8K、高画質タグ、人物プロンプト、リアル系モデル、img2img、Interrogate CLIPなどを整理しながら、あなたがリアル寄りの画像を安定して作るための考え方を分かりやすく解説します。
- リアルな写真風プロンプトの基本構成
- 実写系に使いやすい呪文テンプレ
- モデルとネガティブプロンプトの選び方
- img2imgで写真風に近づける実践手順
Stable Diffusionのリアルプロンプト例

まずは、Stable Diffusionでリアルな画像を作るための土台を整理します。写真風や実写系に寄せるには、単にrealisticと入れるだけではなく、主題、画角、質感、光、品質タグを組み合わせて、AIに伝える情報を具体化することが大切です。
写真風プロンプトの基本
写真風のプロンプトを作るときは、最初に何を写したいのかを明確にします。ここ、意外と見落としがちなんですよ。Stable Diffusionは、曖昧な言葉だけでも画像を出してくれますが、曖昧な指示ほどモデル側のクセが強く出ます。たとえばbeautiful womanだけだと、顔立ち、服装、背景、画角、光の雰囲気がほぼAI任せになります。その結果、あなたが求めていたリアルな写真風ではなく、少しアニメっぽい人物や、背景がぼんやりした画像になりやすいです。
人物なら、性別、年齢の印象、髪型、表情、服装、ポーズ、背景、カメラ距離を順番に指定すると、出力のブレを抑えやすくなります。たとえば、ただのwomanではなく、Japanese woman, long black hair, natural smile, white blouse, upper body, outdoor cafe, soft natural lightingのように分解して書くと、AIが理解する材料が増えます。リアル化では、見た目の情報を細かく足すほど、写真として成立しやすくなると考えると分かりやすいです。
プロンプトは写真撮影の指示書として考える
私は、リアル系のプロンプトを作るとき、写真撮影の指示書を作る感覚で組み立てています。被写体は誰か、どこにいるのか、どんな表情なのか、どんな光が当たっているのか、カメラは近いのか遠いのか。このあたりを決めるだけで、生成結果の安定感はかなり変わります。特に写真風では、被写体だけでなく、背景や光もリアルさを左右します。
基本形は、被写体、構図、服装、背景、光、品質タグの順で組み立てると扱いやすいです。たとえば人物画像なら、1girl, portrait, smile, black hair, casual clothes, city street, natural lighting, realistic, photorealistic, high qualityのように、画像に必要な要素をカンマで区切って並べます。このとき、すべてを文章で長く書くより、短いタグを並べるほうが調整しやすい場面も多いです。
- 被写体を先に決める
- 構図や画角を指定する
- 背景とライティングを加える
- realisticやphotorealisticで質感を補強する
- 高画質タグで仕上がりを整える
リアル画像では、背景や光の指定も重要です。たとえば同じ人物でも、studio lightingなら撮影スタジオ風に、natural lightingなら自然光の屋外写真風に、cinematic lightingなら映画のワンシーンのような雰囲気に寄せやすくなります。さらに、shallow depth of fieldを入れると背景がほどよくボケたポートレート風になり、sharp focusを入れると顔や目のピント感を強めやすくなります。
| 要素 | 入力例 | 狙える効果 |
|---|---|---|
| 被写体 | Japanese woman, young man, businessman | 誰を描くかを明確にする |
| 構図 | portrait, upper body, full body | 顔寄りか全身かを指定する |
| 背景 | outdoor cafe, office, city street | 写真としての文脈を作る |
| 光 | natural lighting, studio lighting | リアルな撮影感を出す |
| 質感 | realistic, photorealistic, raw photo | 実写寄りに補強する |
最初から完璧なプロンプトを作ろうとしなくて大丈夫です。まずは基本形で生成し、顔が不自然ならdetailed faceやdetailed eyesを足す、肌がのっぺりするならnatural skin textureを足す、背景が弱ければbackgroundの具体性を上げる、という形で少しずつ調整していくのが一番ラクですよ。
実写系の呪文テンプレ

実写系の呪文は、品質タグだけを詰め込むよりも、リアルに見える理由をプロンプト内に作ることが大切です。ここ、かなり大事です。masterpieceやbest qualityを入れれば一気に写真っぽくなると思われがちですが、実際にはそれだけでは足りません。リアルに見える画像には、肌の質感、レンズ感、光の方向、背景の自然さ、服の素材感、ピントの合い方など、複数の要素が重なっています。
そのため、実写系テンプレでは、まずrealistic、photorealistic、raw photoで写真方向へ寄せます。次に、portrait photographyやshallow depth of fieldでカメラ撮影っぽさを加えます。さらに、detailed skin、natural skin texture、sharp focusなどで人物の細部を補強します。背景にはoutdoor cafe、office、street、traditional Japanese gardenなど、実在しそうな場所を入れると、画像全体が自然にまとまりやすくなります。
実写系人物プロンプト例
masterpiece, best quality, high quality, realistic, photorealistic, raw photo, portrait photography, detailed skin, natural skin texture, soft lighting, sharp focus, Japanese woman, natural smile, black hair, casual outfit, outdoor cafe, shallow depth of field
このテンプレは、人物をリアル寄りにしたいときの出発点として使えます。必要に応じて、Japanese womanをbusiness womanやyoung manに変えたり、outdoor cafeをoffice、park、traditional Japanese gardenなどに変更したりすると、目的に合わせた画像を作りやすくなります。大切なのは、テンプレを丸暗記することではなく、どのタグがどの役割を持っているかを把握することです。
テンプレを分解して考える
たとえば、masterpiece、best quality、high qualityは品質を上げるためのタグです。realistic、photorealistic、raw photoは写真風に寄せるタグです。portrait photography、shallow depth of fieldはカメラで撮ったような表現に近づけるタグです。detailed skin、natural skin textureは肌の質感を補うタグです。こうして役割ごとに見ると、どこを変更すればよいか分かりやすくなります。
| 分類 | タグ例 | 使う目的 |
|---|---|---|
| 品質 | masterpiece, best quality, high quality | 全体の完成度を上げる |
| 写真感 | realistic, photorealistic, raw photo | 実写寄りの質感にする |
| 撮影感 | portrait photography, shallow depth of field | カメラで撮った雰囲気を出す |
| 肌 | detailed skin, natural skin texture | 人物のリアルさを補強する |
| 光 | soft lighting, natural lighting | 自然な明暗を作る |
ただし、プロンプトは万能ではありません。使用するCheckpointモデルやLoRA、サンプラー、CFG Scale、ステップ数、画像サイズによって結果は大きく変わります。プロンプトだけで粘り続けるより、モデルの得意分野と合わせて調整するほうが効率的です。特に、アニメ系のCheckpointで実写系テンプレを使っても、モデルの学習傾向が強く出てしまい、思ったほどリアルにならないことがあります。
テンプレ利用時の注意
テンプレはあくまで出発点です。同じプロンプトでも、モデル、VAE、LoRA、サンプラー、解像度によって結果は変わります。うまくいかないときは、タグを増やす前にモデルや設定を見直すほうが早いこともあります。
最初はテンプレをそのまま使い、次に背景だけ変える、服装だけ変える、画角だけ変える、というように一つずつ調整してみてください。一度に全部変えると、何が効いたのか分からなくなります。地味ですが、この手順がリアル系プロンプト上達の近道かと思います。
photorealisticの使い方
photorealisticは、Stable Diffusionで写真のような質感を狙うときによく使う重要なタグです。日本語にするとフォトリアル、つまり現実の写真に近い表現を促す言葉です。リアル系画像を作るなら、かなり高い頻度で使うタグになるかと思います。ただし、photorealisticを入れれば必ず実写になるわけではありません。ここが少しややこしいところですよね。
photorealisticは、単独で使うよりも、realistic、raw photo、portrait photography、natural lighting、detailed skinなどと組み合わせると効果を感じやすくなります。特に人物では、肌や顔の質感を補うタグと一緒に使うと、リアルさの方向性が定まりやすいです。たとえば、photorealisticだけでは写真風の方向性を示すだけですが、raw photoを加えると生写真っぽさが増し、natural lightingを加えると自然光で撮影したような雰囲気を作りやすくなります。
- photorealistic, raw photo, natural lighting
- photorealistic, portrait photography, detailed skin
- photorealistic, sharp focus, shallow depth of field
photorealisticが効きにくい原因
photorealisticを入れているのに写真っぽくならない場合、原因は大きく分けて三つあります。一つ目は、モデルがアニメ寄りであることです。アニメ系モデルは、線画やイラストの質感を強く学習しているため、photorealisticを入れても絵柄の土台が残りやすいです。二つ目は、背景や光の指定が不足していることです。人物だけを指定して、撮影環境を指定しないと、AIが補完した背景が不自然になりやすいです。三つ目は、ネガティブプロンプトが弱いことです。cartoon、anime、illustration、paintingなどを除外しないと、写真とイラストの中間のような画像になることがあります。
また、Stable Diffusion系のモデルは、テキストプロンプトをもとに画像を生成・編集するモデルとして設計されています。たとえばStability AIのSDXLモデルカードでも、テキストプロンプトに基づいて画像生成や編集に使える拡散ベースのtext-to-imageモデルであることが説明されています。基礎的なモデル仕様を確認したい場合は、Stability AIのStable Diffusion XLモデルカードを参考にするとよいです。
- リアル系Checkpointを使う
- raw photoやportrait photographyと組み合わせる
- natural lightingやstudio lightingで光を指定する
- detailed skinやnatural skin textureで肌を補強する
- ネガティブ側でanimeやillustrationを抑える
一方で、アニメ系モデルやイラスト系モデルにphotorealisticを入れても、思ったほど写真風にならない場合があります。これはモデル自体がアニメ調の絵柄を学習しているためです。実写系を狙う場合は、プロンプトだけでなく、リアル系Checkpointを選ぶことが近道になります。プロンプトは方向指示、モデルは画風の土台。この二つを分けて考えると、失敗原因を見つけやすくなりますよ。
realisticで質感を出す

realisticは、画像全体を現実的な雰囲気に寄せたいときに使いやすいタグです。photorealisticより少し広い意味で、人物、背景、服、光、物体の質感を現実寄りにしたいときに役立ちます。photorealisticが写真表現を強く意識したタグだとすれば、realisticは「現実にありそうな質感や雰囲気」を補うタグというイメージです。
たとえば、人物の肌を自然にしたい場合は、realistic skin texture、natural skin texture、detailed skinなどを入れると、のっぺりした肌やプラスチックのような質感を避けやすくなります。背景なら、realistic backgroundやrealistic lightingを加えることで、被写体だけが浮く状態を抑えやすくなります。服ならcotton shirt、wool coat、leather jacketのように素材を指定すると、より現実感が出ます。
realisticは万能タグではなく、方向性を補強するタグとして考えるのがおすすめです。画像がリアルにならない原因がモデル選びにある場合、realisticを何度も足しても大きく改善しないことがあります。むしろ、realisticを重複して入れすぎるより、肌、服、背景、光を具体化したほうが自然に改善することが多いです。
質感は具体語で補強する
リアルさを出すうえで重要なのは、realisticという抽象語だけに頼らないことです。たとえば肌ならpores、natural skin texture、detailed skin、soft skin lightingなど。髪ならstrands of hair、glossy hair、natural black hairなど。服ならlinen shirt、denim jacket、silk dressなど。背景ならwet street、wooden table、concrete wall、sunlit roomなどを使うと、画像の中に現実味のある手触りが出やすくなります。
| 表現したい質感 | タグ例 | 使いどころ |
|---|---|---|
| 肌 | natural skin texture, detailed skin | 人物のリアル感を高める |
| 髪 | strands of hair, glossy hair | 髪の束感や自然さを出す |
| 服 | cotton shirt, leather jacket, denim | 素材の違いを出す |
| 光 | realistic lighting, natural lighting | 現実的な明暗を作る |
| 背景 | wooden table, concrete wall, city street | 空間のリアルさを補う |
また、realisticを使うときは、ネガティブプロンプトとの組み合わせも見ておきたいです。ポジティブ側でrealisticを入れても、ネガティブ側にcartoon、anime、illustration、paintingが入っていないと、モデルによってはイラスト寄りに戻ることがあります。リアル化はポジティブだけで押すのではなく、ネガティブ側で不要な画風を避けるのがコツです。
realisticを活かす基本セット
realistic, realistic skin texture, natural lighting, realistic background, detailed face, sharp focus
生成結果が「顔はリアルだけど背景がAIっぽい」「肌はきれいだけど服が不自然」という場合は、realisticを増やすのではなく、不自然な部分だけを具体的に補強してみてください。背景が弱いならbackgroundを具体化、服が弱いなら素材を指定、肌が弱いならskin textureを追加。この調整のほうが、結果的に自然なリアル画像へ近づきやすいですよ。
8Kと高画質タグの選び方
8K、4K、ultra HD、high resolution、sharp focus、best quality、masterpieceなどは、Stable Diffusionの品質系プロンプトとしてよく使われます。これらは画像を高精細な見た目へ誘導するためのタグであり、リアル系画像でも便利です。ただ、ここで誤解しやすいのが、8Kと書けば実際に8K解像度の画像が出るわけではないという点です。ここ、気になりますよね。
実際の画像サイズは、WebUIや生成ツール側の幅、高さ、Hires.fix、アップスケーラーなどの設定に左右されます。プロンプトに8Kと入れるのは、あくまで高精細な雰囲気を出すための指示です。つまり、8Kは「画像サイズの指定」ではなく「見た目の解像感を高めるためのタグ」として扱うのが安全です。ブログ記事やSNS素材として使うなら、プロンプトだけでなく、出力サイズやアップスケール設定も合わせて考える必要があります。
注意点
品質タグを大量に入れすぎると、モデルによっては絵が硬くなったり、過剰に補正されたような質感になったりします。最初はbest quality、masterpiece、high quality、sharp focus、8K程度から始め、結果を見ながら足し引きするのがおすすめです。
高画質タグは役割別に選ぶ
高画質タグは、似た言葉が多いため、とりあえず大量に並べたくなります。ただ、実際には役割ごとに分けて選ぶと使いやすいです。品質そのものを上げたいならbest qualityやmasterpiece、細部を描きたいならultra detailedやhighly detailed、ピント感を出したいならsharp focus、写真の生っぽさを出したいならraw photoやHDRを検討します。
| タグ | 役割 | 使いどころ |
|---|---|---|
| best quality | 品質を高める | ほぼ全ジャンルの基本 |
| masterpiece | 完成度を高める | 人物や作品風の画像 |
| sharp focus | ピント感を補強 | 顔や商品画像 |
| 8K | 高精細感を誘導 | リアル系や風景画像 |
| ultra detailed | 細部の描写を補強 | 肌、服、背景の質感 |
リアル系人物画像であれば、best quality、masterpiece、realistic、photorealistic、sharp focus、detailed skinあたりから始めるのが扱いやすいです。風景なら、8K、ultra detailed、high resolution、wide angle、natural lightingなどが相性よいです。商品画像なら、studio lighting、sharp focus、commercial photography、clean backgroundなどを組み合わせると、広告写真っぽい仕上がりを狙いやすくなります。
- 人物写真風:best quality, realistic, photorealistic, sharp focus, detailed skin
- 風景写真風:8K, high resolution, ultra detailed, natural lighting, wide angle
- 商品写真風:studio lighting, sharp focus, commercial photography, clean background
なお、品質タグを増やしすぎると、画像が過剰に補正されたように見える場合もあります。特に人物の肌は、detailed skinを入れすぎると毛穴や凹凸が強く出すぎることがあります。逆に、flawless skinを強くしすぎると、現実感よりも加工感が目立つことがあります。リアル系では、きれいさと自然さのバランスが大切です。
数値や推奨設定は、あくまで一般的な目安です。利用するWebUI、モデル、GPU環境、画像サイズによって最適値は変わります。正確な情報は公式サイトをご確認ください。商用利用や権利面の判断が絡む場合は、最終的な判断は専門家にご相談ください。
人物プロンプトの作り方

人物プロンプトでは、顔だけでなく、髪型、服装、表情、画角、背景、ライティングまで指定すると安定しやすくなります。リアル系の人物画像で失敗しやすいのは、顔だけに情報が偏り、服や背景が曖昧になるケースです。顔はそれなりにきれいなのに、服が溶けたようになったり、背景が現実に存在しない空間になったりすることがありますよね。
たとえば、単にbeautiful womanと入力するより、beautiful Japanese woman, long black hair, natural smile, white blouse, outdoor cafe, soft natural lighting, portrait photographyのように具体化すると、AIが構図を理解しやすくなります。さらに、upper bodyやclose-up portraitを入れると、カメラの距離感も伝えられます。リアル系では、顔立ちだけでなく「写真としてどう撮られているか」を指定するのがポイントです。
画角の指定も重要です。顔を大きく見せたいならclose-up portrait、上半身ならupper body、全身ならfull bodyやfull-body shotを使います。全身構図の安定については、Stable Diffusionの全身プロンプトのコツでも詳しく解説しています。
人物プロンプトの例
realistic Japanese woman, long black hair, natural smile, white blouse, upper body, outdoor cafe, soft natural lighting, portrait photography, detailed skin, sharp focus, best quality
人物プロンプトはパーツごとに設計する
人物を安定させるには、プロンプトをパーツごとに考えると分かりやすいです。まず、人物の属性を決めます。Japanese woman、young man、business personなどです。次に、髪型や表情を決めます。long black hair、short hair、natural smile、serious expressionなどですね。次に服装を決めます。white blouse、business suit、casual outfitなどです。最後に背景と光を決めます。outdoor cafe、office、city street、soft lighting、natural lightingなどを入れます。
| 分類 | タグ例 | 目的 |
|---|---|---|
| 人物属性 | Japanese woman, young man, business person | 誰を生成するか決める |
| 髪型 | long black hair, short hair, wavy hair | 見た目の印象を安定させる |
| 表情 | natural smile, serious expression | 感情や雰囲気を決める |
| 服装 | white blouse, business suit, casual outfit | 画像の用途に合わせる |
| 画角 | close-up portrait, upper body, full body | 構図をコントロールする |
また、人物画像では手や指の崩れが起きやすいです。特に、飲み物を持つ、スマホを持つ、楽器を弾く、複雑なポーズを取るといった構図では、手の破綻が出やすくなります。そういう場合は、hand on table、holding a cup with one handのように具体的に指定しつつ、ネガティブプロンプトにbad hands、bad fingers、extra fingers、missing fingersを入れておくと改善しやすいです。
- 顔だけがリアルで服や背景が不自然
- 手や指が崩れる
- 髪と背景が混ざる
- 顔が近すぎて構図が単調になる
- 肌が加工アプリのように不自然になる
人物プロンプトは、足し算だけでなく引き算も大切です。タグを増やしすぎると、AIがどの要素を優先すればよいか迷いやすくなります。まずは必要な要素だけで作り、足りない部分を少しずつ追加するのがおすすめです。特にリアル系では、自然さを残すことが大切なので、過剰な美化タグを入れすぎないほうが写真らしく見えることもありますよ。
Stable Diffusionのプロンプト例でリアル化

ここからは、リアルな画像に近づけるための調整方法を解説します。ネガティブプロンプト、モデル選び、img2img、Interrogate CLIPを組み合わせることで、プロンプトだけでは届きにくい写真風の質感に近づけやすくなります。
ネガティブプロンプト一覧
リアル系画像では、ネガティブプロンプトがかなり重要です。ポジティブプロンプトで写真風を指定しても、ネガティブ側が弱いと、ぼやけ、低品質、崩れた手、不要な文字、イラストっぽさが残ることがあります。ここは、リアル画像を作るうえで避けて通れない部分です。
まず入れたいのは、低品質を防ぐワードです。low quality、worst quality、blurry、low resolution、out of focusなどは、画像全体の粗さを抑える目的で使いやすいです。人物ではbad hands、bad fingers、extra fingers、missing fingers、bad anatomyなども候補になります。特に手や指は破綻しやすいため、人物画像ではほぼ基本セットとして入れておくと安心です。
リアル系で使いやすいネガティブプロンプト例
low quality, worst quality, blurry, low resolution, out of focus, bad anatomy, bad hands, bad fingers, extra fingers, missing fingers, deformed, distorted, watermark, text, logo, signature, painting, sketch, cartoon, anime, illustration
実写系に寄せたい場合は、painting、sketch、cartoon、anime、illustrationなどをネガティブ側に入れると、イラスト風に寄りすぎるのを抑えやすくなります。さらに詳しく調整したい場合は、Stable Diffusionのネガティブプロンプトおすすめテンプレ集も参考になります。
ネガティブプロンプトは失敗原因ごとに分ける
ネガティブプロンプトを使うときは、とにかく大量に入れるより、失敗原因ごとに整理すると扱いやすいです。画質が荒いならlow qualityやblurry、顔が崩れるならbad faceやdeformed eyes、手が崩れるならbad handsやextra fingers、文字やロゴが出るならtext、watermark、logo、signatureを入れます。実写に寄せたいならanime、illustration、cartoon、paintingを避けるといった考え方です。
| 失敗の種類 | ネガティブ例 | 狙い |
|---|---|---|
| 低品質 | low quality, worst quality, blurry | 粗さやぼけを抑える |
| 人体崩れ | bad anatomy, deformed, distorted | 体の不自然さを抑える |
| 手や指 | bad hands, extra fingers, missing fingers | 指の本数や形の崩れを抑える |
| 不要な文字 | text, watermark, logo, signature | 文字や透かしの混入を抑える |
| イラスト化 | anime, cartoon, illustration, painting | 写真風から外れるのを防ぐ |
入れすぎには注意
ネガティブプロンプトを増やしすぎると、画像が硬くなったり、必要なディテールまで消えたりすることがあります。最初は基本語だけで生成し、失敗した部分に合わせて追加する流れが扱いやすいです。
たとえば、人物画像で手が崩れるからといって、手に関するネガティブを大量に入れると、今度は手が隠れたり、不自然に省略されたりすることがあります。ネガティブプロンプトは「消したいもの」を伝える機能なので、強く入れすぎると必要な表現まで抑え込むことがあるんです。だからこそ、生成結果を見て、原因に合うものだけを足すのが大切です。
また、モデルによっては特定のネガティブプロンプトが効きすぎる場合もあります。リアル系モデルではpaintingやillustrationを入れると実写感が出やすい一方、少し絵画的な雰囲気を残したい場合には逆効果になることもあります。あなたが目指すのが完全な写真風なのか、リアル寄りのビジュアルなのかによって、ネガティブの強さも調整してみてください。
リアル系モデルの選び方

Stable Diffusionでリアル画像を作るなら、プロンプトと同じくらいモデル選びが重要です。アニメ系モデルにrealisticやphotorealisticを入れても、絵柄の土台がアニメ寄りであれば、完全な写真風にはなりにくいです。これはプロンプトの書き方が悪いというより、モデルの得意分野が違うからです。
リアル系モデルを選ぶときは、サンプル画像、対応バージョン、推奨VAE、商用利用条件、クレジット表記の有無を確認します。モデルによって得意な被写体が違い、人物が得意なもの、風景が得意なもの、アジア系人物に強いもの、映画風の質感に強いものがあります。あなたが作りたいのが人物ポートレートなのか、商品写真なのか、風景写真なのかによって、選ぶべきモデルは変わります。
| 確認項目 | 見るポイント |
|---|---|
| サンプル画像 | 作りたい雰囲気に近いか |
| 得意ジャンル | 人物、風景、商品、映画風など |
| 推奨設定 | VAE、サンプラー、Clip skipなど |
| ライセンス | 商用利用やクレジット条件 |
| 更新状況 | 最新版や互換性 |
モデルはサンプル画像で判断する
モデル名だけで判断するより、配布ページに掲載されているサンプル画像を見るのが一番確実です。顔立ち、肌の色味、背景の自然さ、ライティング、服の質感、手の安定感などを見ます。特に人物系モデルでは、顔が好みに合うかだけでなく、手や服、背景まで破綻しにくいかを確認してください。顔だけきれいでも、全身や複雑なポーズが苦手なモデルもあります。
また、モデルにはSD1.5系、SDXL系などの違いがあります。使用するWebUIや環境によって、扱いやすいモデル形式が違う場合もあります。LoRAを使う場合も、ベースモデルとの互換性が重要です。SD1.5向けLoRAをSDXL系に使っても期待どおりに動かないことがあります。ここは初心者がつまずきやすいところなので、モデル配布ページの説明をよく見ておくと安心です。
- 作りたい画像のジャンルを決める
- サンプル画像が近いモデルを探す
- 推奨設定と対応バージョンを確認する
- ライセンスと商用利用条件を確認する
- 同じプロンプトで複数モデルを比較する
特に商用利用を考えている場合は、モデル配布ページのライセンスを必ず確認してください。ライセンスや利用条件は変更されることがあるため、正確な情報は公式サイトをご確認ください。収益化や広告利用など判断が難しい場合は、最終的な判断は専門家にご相談ください。
私の感覚では、リアル系で伸び悩んでいる人ほど、プロンプトだけを調整し続けていることが多いです。でも実際には、モデルを変えた瞬間に一気に写真風へ寄ることもあります。プロンプト、モデル、ネガティブ、設定はセットで見ていきましょう。
BRAやRealistic Vision活用
リアル系でよく名前が挙がるモデルには、BRA、Realistic Vision、majicMIX realistic、yayoi_mix、ChilloutMixなどがあります。これらは実写寄りの人物や写真風の質感を狙うときに使われることが多いモデルです。ただし、それぞれ得意な雰囲気が違うので、名前だけで選ばず、サンプル画像や利用条件を確認するのが大切です。
BRAはアジア系人物のリアルな雰囲気を作りたいときに候補になります。Realistic Visionは人物だけでなく、風景や物体も含めて写真風に寄せたいときに使いやすい印象です。majicMIX realisticは華やかな人物表現、yayoi_mixは日本人風の人物表現を狙うときに候補になります。ChilloutMixも、リアル系人物の作例でよく見かけるモデルの一つです。
モデル選びのコツ
モデル名だけで決めるより、実際のサンプル画像を見て、自分が作りたい構図、顔立ち、肌質、色味に近いかを確認するのが確実です。同じプロンプトでも、モデルが変わると仕上がりは大きく変わります。
同じプロンプトで比較する
モデルの違いを理解する一番分かりやすい方法は、同じプロンプトで複数モデルを試すことです。たとえば、同じ人物プロンプトをBRA、Realistic Vision、majicMIX realisticで生成してみると、顔立ち、肌の質感、背景の作り込み、色味、光の表現がかなり変わるはずです。比較すると、どのモデルがあなたの目的に合っているか見えやすくなります。
| モデル候補 | 見たいポイント | 向いている用途の例 |
|---|---|---|
| BRA | アジア系人物の自然さ | リアル寄りの人物ポートレート |
| Realistic Vision | 写真風の汎用性 | 人物、風景、物体の実写風 |
| majicMIX realistic | 華やかな人物表現 | ファッション系やポートレート |
| yayoi_mix | 日本人風の人物表現 | 自然な日本人風の画像 |
| ChilloutMix | リアル系人物の雰囲気 | 人物中心の写真風画像 |
また、モデルには推奨サンプラーや推奨VAEが指定されていることがあります。そこを無視すると、色がくすんだり、顔が崩れたり、思ったほどリアルにならないことがあります。プロンプトを調整する前に、モデル側の説明を確認することが大切です。
モデル利用時の注意
モデルごとにライセンス、商用利用、クレジット表記、禁止用途が異なります。特に仕事や収益化に使う場合は、ダウンロード時点だけでなく、公開前にも最新の利用条件を確認してください。
さらに、LoRAを追加すると、人物の顔立ちや服装、画風を変えやすくなります。ただし、リアル系モデルに複数のLoRAを重ねすぎると、顔が崩れたり、肌が不自然になったりすることもあります。まずはCheckpoint単体で生成し、必要な要素だけLoRAで補う流れがおすすめです。
BRAやRealistic Visionを使うときも、結局は「モデルに任せる部分」と「プロンプトで指定する部分」のバランスが大事です。モデルが得意な顔立ちや質感は活かしつつ、背景、服装、光、構図はプロンプトで丁寧に指定する。これが、リアル系画像を安定させるコツですよ。
img2imgで写真風に近づける

txt2imgだけで狙った構図が出ない場合は、img2imgを使うと写真風に近づけやすくなります。img2imgは、元画像を参考にしながら新しい画像を生成する方法です。構図やポーズの方向性を保ちつつ、プロンプトで雰囲気を変えたいときに便利です。特に、人物のポーズ、カメラ角度、背景の大まかな配置を安定させたいときに役立ちます。
たとえば、フリー素材の人物写真を参考にして、服装や背景を変えながらリアルな人物画像を作りたい場合、img2imgで元画像を読み込み、プロンプトにrealistic、photorealistic、raw photo、natural lightingなどを加えます。Denoising strengthを調整すると、元画像に近いまま変化させるか、大きく変えるかをコントロールできます。
画像利用の注意
参考画像を使う場合は、著作権、肖像権、利用規約に注意してください。特に実在人物の写真や商用素材を使う場合は、利用条件を確認し、権利侵害にならない範囲で扱う必要があります。
Denoising strengthの考え方
img2imgで特に重要なのがDenoising strengthです。これは、元画像をどれくらい変化させるかに関わる設定です。数値が低いほど元画像に近く、数値が高いほど大きく変化しやすくなります。一般的な目安として、構図をかなり残したいなら低め、雰囲気だけ参考にして別画像にしたいなら高めにします。ただし、最適値はモデルや画像によって変わるため、あくまで一般的な目安として考えてください。
| Denoising strengthの傾向 | 変化の強さ | 向いている使い方 |
|---|---|---|
| 低め | 元画像に近い | 構図やポーズを保ちたい |
| 中間 | ほどよく変化 | 服装や質感を変えたい |
| 高め | 大きく変化 | 雰囲気だけ参考にしたい |
img2imgの強みは、構図の迷子になりにくいことです。txt2imgでは、プロンプトだけで「カフェで座っている女性」「ジョッキを片手に持つ人物」「オフィスでノートPCを見る人」などを狙っても、手や小物が崩れることがあります。img2imgなら、元画像の構図を足場にできるので、狙いに近い構図を作りやすいです。
ただし、元画像に依存しすぎると、権利面のリスクや、元画像に似すぎる問題が出ます。商用利用する場合は、必ず利用可能な素材を使い、必要に応じて利用規約を確認してください。人物写真を扱う場合は、肖像権やパブリシティ権にも注意が必要です。正確な情報は公式サイトをご確認ください。判断に迷う場合は、最終的な判断は専門家にご相談ください。
スマホや低スペック環境では、img2imgの処理が重くなることがあります。環境面の考え方は、Stable Diffusionスマホローカルの始め方入門でも触れていますが、本格的に比較生成するならPC環境のほうが作業しやすいです。
- 参考画像を用意する
- img2imgに読み込む
- リアル系プロンプトを追加する
- Denoising strengthを調整する
- 生成結果を見てプロンプトと設定を微調整する
Interrogate CLIPの使い方
Interrogate CLIPは、画像を読み込んで、その画像を説明するようなプロンプトを自動で取得する機能です。フリー画像や自分で撮影した写真からプロンプトのヒントを得たいときに便利です。自分でプロンプトを書くのが苦手な人にとっては、かなり助けになる機能かと思います。
使い方の流れは、img2imgに画像を入れ、Interrogate CLIPを実行し、出てきた文章を確認します。そのまま使うのではなく、不要な単語を削り、realistic、photorealistic、best quality、sharp focus、natural lightingなどのタグと組み合わせると扱いやすくなります。出力された文章は、あくまで画像の説明文なので、生成用プロンプトとしては少し長かったり、不要な語が混ざったりすることがあります。
- 参考画像を用意する
- Interrogate CLIPで説明文を取得する
- 不要な単語を削除する
- リアル系品質タグを追加する
- img2imgで構図を見ながら調整する
取得したプロンプトは整える
Interrogate CLIPで取得したプロンプトは、そのまま使うより整理したほうがよいです。たとえば、画像の中にたまたま写っている小物や、不要な色、意味の薄い言葉が含まれることがあります。そうした語を残したまま生成すると、意図しない小物が出たり、構図がズレたりすることがあります。まずは、被写体、背景、光、構図に関係する言葉だけを残し、そこにrealisticやphotorealisticなどのタグを足すと扱いやすいです。
| 作業 | 見るポイント | 調整例 |
|---|---|---|
| 取得 | 画像説明文を得る | Interrogate CLIPを実行 |
| 整理 | 不要語を削る | 関係ない小物や固有名詞を削除 |
| 補強 | リアル系タグを足す | realistic, raw photo, natural lighting |
| 生成 | img2imgで試す | 構図を見ながら調整 |
| 改善 | 失敗部分を修正 | ネガティブや画角を追加 |
Interrogate CLIPの便利なところは、写真の雰囲気を言語化する練習にもなることです。自分では思いつかなかった単語が出てくることがあり、そこからプロンプトの引き出しを増やせます。たとえば、shallow depth of field、studio lighting、black background、standing pose、close-up portraitなど、写真表現でよく使う言葉を学べるのもメリットです。
ただし、Interrogate CLIPで取得したプロンプトは、元画像を完全に再現するものではありません。あくまで構図や雰囲気を言語化するための補助として使うのが現実的です。出力された文章をそのまま信じるより、自分の目的に合わせて短く整えることで、使いやすいプロンプトになります。
使う画像にも注意
他人の写真や商用素材を参考にする場合は、利用規約や権利関係を必ず確認してください。Interrogate CLIPで説明文にしたとしても、元画像の権利問題が消えるわけではありません。
私がおすすめする使い方は、まず自分で撮った写真や利用可能なフリー素材でInterrogate CLIPを試し、出てきた単語をプロンプト辞書のようにストックする方法です。よく出てくる表現を覚えておくと、次からtxt2imgでも使いやすくなります。プロンプト作成が苦手な人ほど、この方法で一気に書きやすくなるはずです。
Stable Diffusionのリアルプロンプト例まとめ

Stable Diffusionのプロンプト例でリアルな画像を作るには、realisticやphotorealisticを入れるだけでなく、被写体、構図、光、肌質、背景、品質タグ、ネガティブプロンプト、モデル選びをまとめて調整することが大切です。リアル化は、一つの魔法の呪文で解決するというより、複数の要素を少しずつ整えていく作業に近いです。
最初は、masterpiece、best quality、realistic、photorealistic、raw photo、natural lighting、detailed skin、sharp focusのような基本タグから始めると分かりやすいです。そこに人物なら髪型、表情、服装、画角、背景を加え、失敗した部分をネガティブプロンプトで抑えていきます。モデルが合っていないと感じたら、プロンプトを増やす前にリアル系Checkpointへ変えてみるのもおすすめです。
- リアル系モデルを選ぶ
- 写真風の基本プロンプトを組む
- 品質タグで解像感を補強する
- ネガティブプロンプトで崩れを抑える
- 必要に応じてimg2imgやInterrogate CLIPを使う
迷ったら基本セットから始める
最後に、すぐ試せる基本セットを整理しておきます。人物をリアルにしたい場合は、realistic Japanese woman, natural smile, upper body, outdoor cafe, natural lighting, photorealistic, raw photo, detailed skin, sharp focus, best qualityのように、被写体、表情、画角、背景、光、質感をまとめて入れます。ネガティブには、low quality, worst quality, blurry, bad hands, bad fingers, extra fingers, missing fingers, anime, illustration, cartoon, text, watermarkを入れておくと、最初の土台として扱いやすいです。
コピペ用の基本例
realistic Japanese woman, natural smile, upper body, outdoor cafe, natural lighting, photorealistic, raw photo, detailed skin, sharp focus, best quality, masterpiece
ネガティブ例
low quality, worst quality, blurry, bad anatomy, bad hands, bad fingers, extra fingers, missing fingers, anime, illustration, cartoon, painting, text, watermark, logo
風景なら、被写体を人物ではなく、Majestic Mount Fuji at sunrise、Tokyo skyline at night、traditional Japanese gardenなどに変え、8K、high resolution、ultra detailed、natural lighting、cinematic lightingなどを組み合わせます。商品写真なら、clean background、studio lighting、commercial photography、sharp focusを入れると、広告向けの写真っぽい雰囲気を作りやすいです。
| 用途 | ポジティブの方向性 | 追加したいタグ |
|---|---|---|
| 人物写真 | 被写体、表情、服装、画角を明確にする | detailed skin, portrait photography, natural lighting |
| 風景写真 | 場所、時間帯、天候、光を指定する | 8K, ultra detailed, wide angle, golden hour |
| 商品写真 | 商品、背景、照明、ピントを指定する | studio lighting, commercial photography, sharp focus |
| 飲食写真 | 料理名、皿、背景、光を具体化する | food photography, shallow depth of field, soft lighting |
プロンプトの効果は、モデル、設定、生成環境によって変わります。数値や推奨設定はあくまで一般的な目安として考え、実際の出力を見ながら少しずつ調整してください。特に商用利用、人物画像、素材利用に関わる場合は、正確な情報は公式サイトをご確認ください。判断に迷う場合は、最終的な判断は専門家にご相談ください。
Stable Diffusionのリアルプロンプト例は、最初は難しく見えるかもしれません。でも、被写体、構図、光、質感、モデル、ネガティブを分けて考えると、一気に整理しやすくなります。あなたもまずは基本プロンプトを一つ作り、同じ条件で少しずつタグを変えながら、自分の環境で一番安定する組み合わせを探してみてください。

