Stable Diffusionの生成速度を上げる設定術

Stable Diffusionの生成速度を上げる方法を調べているあなたは、画像生成が遅い、VRAM不足で止まる、AUTOMATIC1111 WebUIの設定が多すぎて分からない、xformersやTensorRTを入れるべきか迷う、といった悩みを抱えているかもしれません。

Stable Diffusionは、モデル、解像度、ステップ数、CFG Scale、サンプラー、拡張機能、GPU環境の組み合わせで速度がかなり変わります。特にxformers、medvram、lowvram、SDP Attention、LCM、Turbo、Lightning、Hyper-SD、ToMe、TensorRT、MPS、DirectMLあたりは、生成速度を上げるうえでよく出てくる重要キーワードです。

ただし、どれか一つを入れれば必ず爆速になるわけではありません。NVIDIA GPUなのか、AMDやIntel環境なのか、Macなのか、VRAMが8GBなのか12GB以上あるのかで、向いている設定は変わります。ここを間違えると、速くなるどころかエラーや画質低下につながることもあります。

この記事では、Stable Diffusionの生成速度を上げるために、まず見直すべき基本設定から、xformersや少ステップ系モデル、TensorRT、ToMeなどの応用的な高速化まで、初心者でも順番に試せるように整理します。

Stable Diffusionの生成待ち時間に悩む日本人ユーザーと高性能PC環境

この記事のポイント

Stable Diffusionが遅くなる主な原因
xformersやSDP Attentionの使い分け
LCMやTurboなど少ステップ高速化の考え方
環境別に試しやすい高速化手順

StableDiffusionの生成速度を上げる
StableDiffusionで生成速度を上げる応用

StableDiffusionの生成速度を上げる

まずは、Stable Diffusionの生成速度を上げるための基本から見ていきます。いきなり拡張機能や特殊なモデルに進むより、最初にVRAM、起動オプション、ステップ数、解像度、保存設定を見直したほうが安定しやすいです。

特にAUTOMATIC1111系のWebUIを使っている場合、webui-user.batの起動オプションだけで体感が変わることがあります。ただし、速度と安定性はトレードオフになりやすいので、あなたのPC環境に合わせて少しずつ試すのが大事です。

Stable Diffusionの生成速度を上げるため設定を調整する日本人ユーザー

遅い原因はVRAMと設定

Stable Diffusionの生成速度が遅い原因として、まず見たいのはVRAMの不足です。VRAMはGPU側のメモリで、画像生成ではモデル、VAE、解像度、バッチサイズ、ControlNet、LoRA、Hires.fixなどの処理に使われます。ここが足りないと、処理が詰まったり、CPUやシステムメモリ側に逃がすような動きになったりして、急に遅くなることがあります。

たとえば、同じプロンプトでも512×512で生成するのと、1024×1024で生成するのでは負荷がかなり違います。さらにHires.fixを使う、ControlNetを複数使う、重いSDXLモデルを使う、といった条件が重なると、生成速度は落ちやすいです。これ、かなりあるあるですよ。

また、生成速度はGPUだけで決まるわけではありません。RAM容量、ストレージ速度、PythonやPyTorchのバージョン、WebUIの種類、NVIDIAドライバーの状態、拡張機能の相性も関わります。特にいろいろな拡張機能を入れている環境では、画像を1枚出す前の読み込みやUIの反応が重くなることもあります。

最初に見るべきポイント

VRAM容量に対して解像度やバッチサイズが大きすぎないか
Hires.fixやControlNetを同時に盛りすぎていないか
使っていない拡張機能が増えすぎていないか
モデルやVAEの読み込みで毎回待たされていないか

個人的には、Stable Diffusionの生成速度を上げたいときほど、まず設定をシンプルに戻すのがおすすめです。いったん拡張機能を外し、512×512や768×768など軽めの条件で生成してみる。そこで速いなら、原因はモデルや拡張機能、解像度側にある可能性が高いです。

逆に、軽い条件でも遅い場合は、GPUドライバー、CUDA、PyTorch、WebUI本体の環境に原因があるかもしれません。ここは環境差が大きいので、むやみに設定を足すより、現在の構成をメモしてから一つずつ確認したほうが安全です。

xformersで軽くする

xformersは、Stable Diffusionの生成速度を上げる方法としてよく名前が出る高速化オプションです。ざっくり言うと、画像生成中に重くなりやすいAttention計算を効率化し、VRAM使用量を抑えつつ処理を軽くするための仕組みです。

AUTOMATIC1111系のWebUIでは、webui-user.batのset COMMANDLINE_ARGS=の後ろに--xformersを追加して起動する形がよく使われます。たとえば、次のようなイメージです。

set COMMANDLINE_ARGS=--xformers

ただし、xformersは万能ではありません。基本的にはNVIDIA GPU環境で効果を期待しやすい一方、GPUやPyTorchのバージョン、WebUIの状態によっては導入時にエラーが出たり、思ったほど速くならなかったりします。特に古い環境を長く使っている場合は、xformersだけ入れてもバージョンの相性でつまずくことがあります。

効果としては、生成速度の向上とVRAM削減が期待できます。とはいえ、何倍速くなると断定するのは危険です。モデル、解像度、サンプラー、ステップ数、GPU世代によって変わります。xformersは最初に試しやすい高速化手段だけど、必ず速度が上がる保証はないと考えるのが現実的です。

xformers導入前の注意点

webui-user.batは編集前にバックアップを取る
起動しなくなったら追加したオプションを外して戻す
古いtorch環境では相性問題が出ることがある
Macや一部GPUでは期待通り使えない場合がある

また、xformersを使う前に、そもそも高すぎる解像度や大きすぎるバッチサイズを設定していないかも確認してください。負荷の大きい設定をそのままにしてxformersだけ足すより、解像度やステップ数も一緒に調整したほうが効きやすいです。

プロンプト作成の時点でやり直し回数を減らすことも、体感速度の改善につながります。アニメ系の生成で試行錯誤が多い場合は、Stable Diffusionのアニメプロンプト例入門ガイドも参考になると思います。設定だけでなく、失敗画像を減らすのも大事です。

medvramとlowvramの違い

Stable DiffusionでVRAM不足に悩んでいる場合、--medvramや--lowvramという起動オプションが候補になります。どちらもVRAM使用量を抑えるための設定ですが、目的と副作用が少し違います。

--medvramは、中程度のVRAM節約を狙う設定です。VRAMが8GB前後で、普通の設定だとギリギリだけど、lowvramまでは使いたくないという場合に候補になります。一方で--lowvramは、さらにVRAM使用量を減らす設定です。その代わり、速度は落ちやすくなります。

項目	medvram	lowvram
目的	VRAM使用量を中程度に抑える	VRAM使用量を大きく抑える
向いている環境	VRAMがやや足りないPC	VRAMがかなり少ないPC
速度への影響	やや落ちる場合がある	落ちやすい
おすすめ度	まず試しやすい	最終手段寄り

ここで大事なのは、medvramやlowvramは速度を上げるための設定というより、VRAM不足で止まらないようにする設定だということです。結果として安定して生成できるようになり、作業全体では速く感じることがあります。でも、1枚あたりの純粋な生成速度が上がるとは限りません。

たとえば、CUDA out of memoryで何度も止まっていた環境なら、medvramを入れるだけで作業効率はかなり上がるかもしれません。エラーでやり直す時間が減るからです。一方で、もともとVRAMに余裕があるPCにlowvramを入れると、むしろ遅くなる可能性があります。

おすすめの試し方

まずはオプションなしで軽い設定を試す
VRAM不足が出るなら--medvramを追加する
それでも厳しい場合だけ--lowvramを検討する
速度が落ちすぎるなら解像度やHires.fix側を見直す

Stable Diffusionの生成速度を上げるという目的だけを見ると、lowvramは少し逆方向に見えるかもしれません。ただ、低スペック環境では「遅くても止まらない」ことが重要な場面もあります。特に大量生成では、エラーで止まるより、少し遅くても完走するほうが助かることが多いです。

SDP Attentionを使う

SDP Attentionは、xformersと並んでStable Diffusionの生成速度を上げる候補になる最適化です。AUTOMATIC1111系では、--opt-sdp-attentionなどの起動オプションとして使われます。環境によっては、xformersより速くなることもあります。

ただし、SDP Attentionも環境依存です。特にVRAM使用量が増える場合があるため、VRAMに余裕が少ないPCでは安定しないことがあります。高速化だけを見て入れるのではなく、あなたのGPUとVRAM容量に合うかを確認しながら試すのが安全です。

起動オプション例

set COMMANDLINE_ARGS=--opt-sdp-attention

set COMMANDLINE_ARGS=--xformers --opt-sdp-attention

とはいえ、xformersとSDP Attentionを同時に入れれば必ず最強、という話ではありません。WebUIやPyTorchのバージョンによっては、片方だけが有効になったり、期待通りの挙動にならなかったりします。ここはベンチマークを取りながら判断するのが一番です。

私なら、まず同じプロンプト、同じSeed、同じモデル、同じ解像度、同じステップ数で、次のように比較します。オプションなし、xformersのみ、SDP Attentionのみ、必要なら両方。この順番です。1回だけではブレるので、数回生成して平均を見ると判断しやすいですよ。

比較パターン	見るポイント	向いている判断
オプションなし	基準速度と安定性	まず現状確認
xformersのみ	VRAM削減と速度	NVIDIA環境で試しやすい
SDP Attentionのみ	速度とVRAM使用量	VRAMに余裕がある場合
複数オプション	起動エラーや速度変化	慣れてから検証

また、ベンチマークを取るときは、最初の1回を結果から外すのもおすすめです。初回はモデルやVAEの読み込みが入って遅く見えることがあるからです。2回目以降の生成時間を見たほうが、実際の速度に近くなります。

Stable Diffusionの高速化は、設定を足すほど良いわけではありません。自分の環境で速い設定だけを残す。これがかなり大事です。

ステップ数と解像度を調整

Stable Diffusionの生成速度を上げるうえで、最も分かりやすく効くのがステップ数と解像度の調整です。難しい拡張機能を入れる前に、ここを見直すだけで待ち時間がかなり変わることがあります。

ステップ数は、画像を少しずつ作り込む反復回数のようなものです。一般的には、ステップ数を増やすほど処理時間は長くなります。ただし、増やせば増やすほど必ず高品質になるわけではありません。ある程度を超えると、見た目の改善が小さくなり、時間だけが伸びることもあります。

通常のモデルなら、まずは20〜30ステップ前後を目安にすることが多いです。もちろん、サンプラーやモデルによって最適値は変わります。DPM++系、Euler系、LCM系などで必要なステップ数は違うので、同じ数値を使い回すより、モデルごとに確認したほうがいいです。

速度重視で見直す項目

ステップ数を必要以上に増やしていないか
最初から高解像度で生成していないか
Batch Sizeを大きくしすぎていないか
Hires.fixの倍率やDenoising strengthが重すぎないか

解像度も重要です。512×512、768×768、1024×1024では、必要な計算量が変わります。特にSDXL系は1024px前後で使われることが多いですが、低VRAM環境でいきなり大きなサイズを連発すると、生成速度が落ちたりエラーが出たりしやすいです。

作業効率を考えるなら、最初は軽めの解像度で構図や雰囲気を決めて、良さそうな画像だけHires.fixやアップスケーラーで仕上げる流れが使いやすいです。最初から全画像を高解像度で出すと、失敗画像にも時間を使ってしまいます。これは本当にもったいないです。

また、CFG Scaleも速度そのものより、やり直し回数に関わります。プロンプトへの忠実度を上げたいからといってCFGを高くしすぎると、絵が硬くなったり破綻したりして、結果的に再生成が増えることがあります。高速化は、1枚の秒数だけでなく、完成までの試行回数を減らす考え方も大事です。

自動保存とキャッシュを見直す

Stable Diffusionの生成速度を上げるとき、見落としがちなのが保存設定とキャッシュです。画像生成そのものが終わっていても、グリッド画像の保存、メタデータの保存、サムネイル作成、ストレージへの書き込みなどで、体感的に遅く感じることがあります。

特にHDD環境や、クラウド同期フォルダに出力している場合は要注意です。画像が生成されるたびに同期や書き込みが走ると、WebUIの反応が重くなることがあります。大量生成をするなら、出力先を高速なSSDにするだけでも作業感が変わるかもしれません。

AUTOMATIC1111のSettingsには、画像やグリッド画像の保存に関する項目があります。不要なグリッド画像の自動保存をオフにする、保存形式を見直す、出力フォルダを整理する、といった地味な設定も効きます。

保存まわりで見直したいこと

不要なグリッド画像を保存していないか
出力先が遅いストレージになっていないか
クラウド同期フォルダへ直接保存していないか
大量の過去画像でフォルダが重くなっていないか

もう一つ見たいのが、モデルやVAEのキャッシュです。RAMに余裕がある環境では、モデルやVAEをキャッシュする設定によって、切り替え時や再読み込み時の待ち時間を減らせる場合があります。特に同じモデルを何度も使う人には相性がいいです。

ただし、RAMが少ないPCで無理にキャッシュを増やすと、今度はシステム全体が重くなることがあります。Stable Diffusionだけでなく、ブラウザ、画像編集ソフト、資料、動画などを同時に開いている人は、RAMの余裕も見ておきたいところです。

キャラクターや衣装を固定しながら何枚も作る場合は、モデルやLoRA、ControlNetの使い方でも試行回数が変わります。キャラの再現性で悩んでいる場合は、Stable Diffusionでアニメキャラを再現する手順も参考にしてみてください。失敗を減らすことは、広い意味での高速化です。

StableDiffusionで生成速度を上げる応用

ここからは、Stable Diffusionの生成速度をさらに上げたい人向けの応用編です。LCM、Turbo、Lightning、Hyper-SDのような少ステップ高速化技術や、TensorRT、ToMe、環境別の設定を整理していきます。

このあたりは効果が大きい反面、画質や互換性とのトレードオフもあります。最初から全部を入れるのではなく、あなたの目的に合うものだけを選ぶのがおすすめです。

LCMで少ステップ化する

LCMは、Latent Consistency Modelの略で、Stable Diffusionの生成に必要なステップ数を減らすための高速化技術です。通常なら20〜30ステップかけるところを、LCM系では数ステップで生成する運用ができます。生成速度を上げたい人にとっては、かなり分かりやすい選択肢です。

LCM-LoRAを使う場合は、モデルに対応したLoRAファイルを導入し、SamplerやScheduler、CFG Scale、StepsをLCM向けに調整します。よくある目安としては、Stepsを6〜8前後、CFG Scaleを低めにする形です。ただし、これはあくまで一般的な目安で、使うモデルやWebUIによって最適値は変わります。

LCMが向いている場面

大量にラフ案を出したい
構図や雰囲気を短時間で比較したい
多少の画質差より速度を優先したい
低ステップ生成の挙動を試したい

LCMの魅力は、1枚あたりの生成時間を短くしやすいことです。SNS用の案出し、背景案、構図比較、キャラの方向性確認など、完成品の前段階で使うとかなり便利です。最初から完璧な1枚を狙うというより、候補をたくさん出して当たりを探す使い方に向いています。

一方で、通常モデルの20〜30ステップ生成と比べると、細部や質感、プロンプト追従が変わることがあります。特に手指、服の細部、背景の整合性、顔の微妙なニュアンスを重視する場合は、LCMだけで完成まで持っていくより、ラフ生成用として使うほうが安定するかもしれません。

また、LCM-LoRAにはSD1.5向け、SDXL向けなどの違いがあります。ファイル名や導入先を間違えると、期待通り動かないことがあります。ここも焦らず確認したいところです。

TurboとLightningの使い分け

TurboとLightningも、Stable Diffusionの生成速度を上げるうえでよく使われる少ステップ系の選択肢です。どちらも通常より少ないステップ数で画像を生成する方向の技術ですが、使いどころは少し違います。

Turbo系は、とにかく速度を重視したいときに候補になります。SDXL Turboは、1ステップ生成を特徴とする高速モデルとして知られています。リアルタイムに近い感覚でラフを確認できるのが魅力です。ただし、商用利用やライセンス、対応環境、画質面のトレードオフは必ず確認してください。

Lightningは、1、2、4、8ステップなど少ないステップ数で使える蒸留モデル・LoRAとして使われます。Turboよりも少し画質とのバランスを取りやすい場面があり、特に4ステップや8ステップあたりは試しやすいです。

種類	特徴	向いている用途
Turbo	非常に少ないステップで高速生成	ラフ確認、リアルタイム寄りの試作
Lightning	1〜8ステップ系の選択肢がある	速度と画質のバランス調整
通常モデル	20〜30ステップ前後で安定しやすい	仕上げ、細部重視の生成

実際の使い分けとしては、最初にTurboやLightningで方向性を出し、良さそうな構図やプロンプトが見つかったら通常モデルや別設定で仕上げる流れが使いやすいです。

ずっと高品質設定で試行錯誤するより、ラフ段階を高速化するほうが全体の作業時間を短くできます。

注意したいのは、少ステップ系は設定を間違えると「速いけど思った画像にならない」状態になりやすいことです。CFG Scale、Sampler、Scheduler、LoRAの強度などが通常モデルと違う場合があります。通常の感覚でCFGを上げたりステップ数を増やしたりすると、逆に崩れることもあります。

速度重視ならTurbo、バランス重視ならLightning、安定重視なら通常モデル。このくらいのざっくりした切り分けから始めると迷いにくいかなと思います。

Hyper-SDで画質も保つ

Hyper-SDは、少ステップでも画質を保ちやすい方向で注目されている高速化手法です。LCMやLightningと同じく、生成に必要なステップ数を減らしながら、通常生成に近い品質を狙うための選択肢になります。

Hyper-SDには、SD1.5向けやSDXL向け、LoRA形式やUNet形式など、複数のバリエーションがあります。使うファイルによって推奨ステップ数やCFG Scaleが変わるため、ダウンロード元の説明を確認しながら設定するのが大事です。

Hyper-SDの強みは、少ステップ化しつつも、Turbo系ほど割り切りすぎない運用がしやすい点です。たとえば、4ステップ、8ステップ、12ステップなど、用途に応じて速度と画質のバランスを選びやすいです。

Hyper-SDを試す価値がある人

高速化したいけど画質も落としたくない
SDXL系で待ち時間が長い
LCMやTurboの絵柄が合わなかった
少ステップ生成を比較したい

ただし、Hyper-SDも万能ではありません。モデルやLoRAとの相性によって、顔の雰囲気、肌の質感、背景の細かさ、プロンプトへの忠実度が変わることがあります。特にキャラクター固定や商用ビジュアルのように再現性が重要な場合は、通常生成と比較してから採用したほうが安心です。

また、速度を上げたいからといって、すべての工程をHyper-SDに置き換える必要はありません。ラフ案はHyper-SD、最終出力は通常モデル、という分担でも十分です。Stable Diffusionの作業では、全部を一つの設定でこなそうとすると逆に遠回りになることがあります。

高速化技術は、完成品用というより作業工程のどこに入れるかで価値が変わると考えると使いやすいです。

TensorRTの向き不向き

TensorRTは、NVIDIAが提供する推論最適化の仕組みで、Stable Diffusion WebUI向けの拡張機能もあります。NVIDIA RTX GPU環境で、特に同じモデルを何度も使って大量生成する場合に、生成速度を上げる選択肢になります。

TensorRTの魅力は、GPUの性能をより効率よく使って高速化を狙えることです。NVIDIA RTX環境ではかなり強力な候補です。ただし、導入すればすぐ全部の生成が速くなるというより、モデルごとに最適化エンジンを作る必要があるなど、少し手間がかかります。

また、TensorRTには向き不向きがあります。ControlNetや一部拡張機能、複数LoRA、自由な解像度変更など、普段のワークフローによっては制限が気になる場合があります。制作の自由度を重視する人には、少し窮屈に感じるかもしれません。

向いている人	向いていない人
NVIDIA RTX GPUを使っている	AMDやMac環境で使っている
同じモデルで大量生成する	毎回モデルやLoRAを頻繁に変える
速度を優先したい	拡張機能の自由度を優先したい
環境構築に慣れている	エラー対応に時間をかけたくない

TensorRTは、Stable Diffusionを仕事や大量制作に近い形で使う人ほど検討価値があります。たとえば、同じモデルで広告素材の案を大量に出す、同じ画風でサムネイルを大量に作る、決まった解像度で何十枚も生成する、といったケースです。

逆に、初心者が最初に入れる高速化としては、少し重いかもしれません。まずはxformers、SDP Attention、ステップ数、解像度、少ステップ系モデルを試して、それでも速度に不満が残るならTensorRTを検討する流れが無難です。

TensorRTの注意点

対応状況や推奨VRAM、使えるモデル、拡張機能との互換性は更新される可能性があります。導入前には、NVIDIAや拡張機能の公式情報を確認してください。正確な情報は公式サイトをご確認ください。

ToMeで処理を軽くする

ToMeは、Token Mergingの略で、画像生成中に冗長なトークンをまとめることで処理を軽くする考え方です。AUTOMATIC1111向けの拡張機能として導入でき、生成速度を上げたいときの選択肢になります。

ToMeの特徴は、設定次第で画像生成の負荷を下げられることです。特に高解像度生成やHires.fix、アップスケール系の処理で効果を感じる場合があります。導入後は、Seedの近くにEnable ToMe optimizationのような項目が追加され、チェックを入れて使う流れです。

ただし、ToMeも「画質劣化なし」と言い切るのは危険です。merge ratioを上げれば速くなりやすい一方で、細部や構図、顔つき、背景の密度に違いが出る可能性があります。少し速くするために完成度が落ちるなら、本末転倒ですよね。

ToMeの調整ポイント

ToMe merging ratioを上げすぎない
Seed固定でありなしを比較する
顔や手指の崩れを確認する
最終出力では慎重に使う

私なら、ToMeはまずラフ生成や構図比較で使います。大量に候補を出す段階では、少しの違いより速度のほうが大事なことが多いからです。逆に、最終的に納品する画像や、細部まで見せたい作品では、ToMeあり・なしを比較してから決めます。

ToMeの設定には、指定した画像サイズ以上のときだけ有効にする項目もあります。たとえば、512×512の軽い生成では使わず、1024×1024以上の重い生成だけToMeを有効にする、といった使い分けができます。この条件設定はかなり便利です。

Stable Diffusionの生成速度を上げるには、常に最大設定で高速化するより、負荷が大きい場面だけ効かせるほうが安定します。ToMeはまさにそのタイプの拡張機能かなと思います。

環境別のおすすめ設定

Stable Diffusionの生成速度を上げる設定は、PC環境によってかなり変わります。NVIDIA GPU、AMD GPU、Intel GPU、Macでは、使える高速化の選択肢が違います。

Stable Diffusionの生成速度を左右するPC環境とGPU設定のイメージ

ここを混同すると、効果が出ないどころか、起動エラーや速度低下につながることがあります。

NVIDIA GPU環境なら、まずxformersやSDP Attention、VRAMに応じたmedvram、必要に応じてTensorRTが候補になります。RTX 30シリーズや40シリーズでVRAMに余裕があるなら、TensorRTやSDXL系の少ステップモデルも検討しやすいです。

VRAMが8GB以下の場合は、無理に高解像度や重い拡張機能を盛るより、xformers、medvram、低解像度生成、Hires.fixの見直し、LCMやLightningの利用を組み合わせるほうが現実的です。

環境	試しやすい設定	注意点
NVIDIA 12GB以上	xformers、SDP Attention、TensorRT、Hyper-SD	拡張機能との互換性を確認
NVIDIA 8GB前後	xformers、medvram、LCM、Lightning	高解像度とHires.fixを控えめにする
AMDやIntel	DirectML、低解像度生成、少ステップ系	NVIDIA向け設定は使えない場合がある
Mac	MPS、Core ML、ComfyUI、少ステップ系	Windows向け情報をそのまま使わない

AMDやIntel環境では、DirectMLが選択肢になります。ただし、NVIDIA向けのxformersやTensorRTの情報をそのまま当てはめても、うまくいかないことがあります。WindowsでAMD GPUを使う場合は、DirectML対応の環境を前提に考えるほうが自然です。

Macでは、Apple SiliconのMPSやCore ML対応のワークフローが候補になります。Windowsのwebui-user.bat前提の記事をそのまま真似しても、設定ファイルや使えるオプションが違うことがあります。MacユーザーはMac向けの手順を確認したほうが安全です。

環境別設定の注意

GPUドライバー、PyTorch、CUDA、DirectML、WebUIのバージョンは変わる可能性があります。特にエラー対応や商用制作で使う環境は、正確な情報は公式サイトをご確認ください。最終的な判断は専門家にご相談ください。

StableDiffusionで生成速度を上げる最適手順

Stable Diffusionの生成速度を上げるなら、やみくもに高速化オプションを足すより、順番を決めて試すのが一番です。設定を同時に変えすぎると、何が効いたのか、何が悪さをしているのか分からなくなります。

まずは、現在の速度を測ります。同じモデル、同じプロンプト、同じSeed、同じ解像度、同じステップ数で、オプションなしの生成時間をメモします。そのうえで、一つずつ設定を変えて比較します。これだけで、かなり判断しやすくなります。

おすすめの順番

軽い解像度と標準ステップで基準速度を測る
xformersまたはSDP Attentionを試す
VRAM不足がある場合はmedvramを試す
ステップ数、解像度、Hires.fixを見直す
LCM、Lightning、Hyper-SDで少ステップ化する
必要に応じてToMeやTensorRTを検討する

初心者の場合、最初からTensorRTや複雑な拡張機能に進むより、ステップ数と解像度の調整、xformers、medvramあたりから入るのが無難です。ここは戻しやすく、効果も確認しやすいからです。

中級者以上なら、生成工程を分けるのがおすすめです。ラフ案はLCMやLightningで高速に出す。良さそうな案だけ通常モデルで仕上げる。高解像度化は最後にまとめて行う。この流れにすると、失敗画像にかける時間をかなり減らせます。

また、完成までの速度を上げるには、設定だけでなく整理も大事です。よく使うモデル、VAE、LoRA、プロンプト、ネガティブプロンプト、解像度、Samplerをプリセット化しておくと、毎回迷う時間が減ります。Stable Diffusionは自由度が高いぶん、作業手順を固定した人ほど速くなります。

目的	優先して試す方法	避けたいこと
とにかく速く試したい	LCM、Turbo、Lightning	最初から高解像度で量産する
VRAM不足を減らしたい	xformers、medvram、解像度調整	lowvramを常用前提にする
画質も維持したい	Hyper-SD、通常生成との使い分け	少ステップだけで完結させる
大量生成を速くしたい	TensorRT、プリセット化、保存設定見直し	毎回モデルや設定を変えすぎる

まとめると、Stable Diffusionの生成速度を上げるコツは、PC環境に合う設定を選び、ラフ生成と仕上げ生成を分けることです。xformersやSDP Attentionで土台を軽くし、VRAMが厳しければmedvramで安定させ、ステップ数と解像度を調整する。さらに必要なら、LCM、Turbo、Lightning、Hyper-SD、ToMe、TensorRTを目的別に足していく流れが使いやすいです。

速さだけを追うと、画質や安定性を落とすことがあります。逆に、画質だけを追うと、失敗画像にも時間を使いすぎます。あなたの目的がラフ案出しなのか、完成品づくりなのか、大量生成なのかを先に決めると、最適な設定を選びやすくなりますよ。

Stable Diffusionの生成速度を上げる方法はたくさんありますが、最初にやることはシンプルです。現在の速度を測る。設定を一つずつ変える。速さ、画質、安定性を見比べる。この積み重ねが、結局いちばん失敗しにくい高速化です。