2026.01.10 AI Art

你還在用30步算圖?揭秘1步生成的性能奇蹟

盤點2025最好用的SDXL加速模型

還在因為線上算圖的點數不夠而創一堆帳號嗎?

不管是在本地算圖還是線上算圖,我們幾乎都被教育同一件事:

步數越高,品質越好 ;步數越低,速度越快。

於是我們習慣把步數拉到 20~30,甚至更高, 只為了換取「感覺比較穩定」的安心感。
代價則是時間、顯卡溫度,或是永遠不夠用的生成額度。
而降低步數則變成了取捨與妥協。

一張使用DMD2只用10步生成的展示圖

如果我告訴你,上面這張圖只用了 10 步生成, 沒有使用 HiRes.fix,也沒有啟用任何 ADetailer,
而且幾乎是可以直接交付、進入生產流程的成品,你可能會先懷疑這是不是偷藏了什麼後處理。

這個反應很正常,我一開始也是這樣想的。
我都照抄大佬的設定了,怎麼可能相同的 Checkpoint、相同的提示詞、相同的參數,卻生不出相同的效果。

真正的關鍵其實不在於提示詞或參數,而是「模型本身的設計目標」。

為什麼步數越低品質越低?

我們大多數人常用的 Checkpoint 通常是為了在 20~30 步內收斂去訓練的。
Checkpoint 會假設你會給它充足的步數讓它慢慢收斂、一步步修正畫面,
所以在低步數時,它根本來不及把畫面修好看。

這就像一位習慣慢條斯理畫畫的畫家,被要求在五秒內畫完原本要畫一小時的作品。
他雖然強行完成了構圖與上色,但因為每一筆都太過倉促,導致最終畫面顯得粗糙且未經打磨。

換句話說,不是你用錯參數,只是你試圖拿「馬拉松選手」去跑「100 公尺短跑」。


低步數模型到底「改了什麼」?

它們不是把模型算得更快,
而是把「畫完一張圖」這件事,重新定義成更少步就必須完成。

傳統模型在做什麼?

一般我們熟悉的模型,在訓練時的核心假設是:

  • 假設你會給它 20~30 步
  • 每一步都可以慢慢修正畫面
  • 前面畫歪了沒關係,後面還有時間補救
  • 細節、質感、光影可以留到最後再雕

低步數模型的設計思路完全相反

LCM、Hyper-SDXL、DMD2 這些 LoRA,其實都是在回答同一個問題 :

如果我「一開始就知道你只給我 1~8 步」,那模型該怎麼學?

它們不再假設有大量步數可以慢慢修, 而是被迫在極少的步數內就必須做出「完整決策」:

  • 構圖必須一開始就正確
  • 人物比例不能靠後段修
  • 風格要在第一時間確立
  • 細節不能拖到最後補

這類模型的訓練方式,通常會包含:

  • 蒸餾(Distillation):讓低步模型模仿高步模型的結果
  • 一致性學習(Consistency):確保不同步數下結果不會崩壞
  • 分佈匹配:不是還原每一步,而是直接逼近「最終成品」的分佈

傳統模型是在畫圖流程是「草稿 → 精稿 → 完稿」,
而低步數模型則是「一次就要交稿的商稿」。
換句話說,它們學的不是「怎麼一步一步畫」, 而是「怎麼一出手就畫得差不多完成」。


現在有哪些主流的加速 LoRA?

這邊也不廢話,直接上最主流的四個加速LoRA對比圖:

StepsLCMHyperSDXLDMD2Rectified
4 stepsCFG 2CFG 1CFG 1CFG 1~1.5
8 stepsCFG 2~4CFG 1~3CFG 1.5CFG 1~1.5

你會發現雖然畫風類似,但上色風格好像不太一樣,有些看上去有明顯的瑕疵,甚至有一張的衣服顏色都變了。
原因也很簡單,就是先前提到的訓練方式不同。
而一些瑕疵或生成錯誤,單純是沒有多餘的步數去慢慢修到好,所以一開始畫錯,後續很難救回來。


CFG 跟這些加速 LoRA 有什麼關聯?

你可以從對比圖中看到,每張圖片下方都有 CFG 值,
那只是我個人根據經驗總結下來的推薦數值,並不是硬性規定或模型作者推薦。

什麼是 CFG?

CFG 簡單來說就是告訴模型應該遵照提示詞多一點,還是自由發揮多一點。
在平常使用上,越高越銳利、對比度越高;越低則越模糊、整體灰灰髒髒的,甚至出現一些與提示詞不符的元素。

低 CFG 真正的原因

以往我們在生成時,因為步數多,你可以根據需求自由的調整 CFG,
反正前面就算被提示詞強迫生一些奇怪的東西,後面依然有充足的步數慢慢修成正常合理的樣子。

但在極低步數的情況下,這個前提不存在,模型根本就沒有足夠的步數去修正那些奇怪的東西。
由於步數實在太少了,導致每一步對於模型而言都十分的重要,一旦犯錯了,沒有幾步的機會去給模型做修正。

不過部分加速 LoRA 有針對這個部分做優化,使其在低步數的情況下,依然可以維持高 CFG,像是 PCM


這麼多加速 LoRA 應該選哪個?

從先前的對比圖中我們可以看到 Rectified 在 4 steps 跟 8 steps 整體的相似度是最像的,
這是否可以斷言 Rectified 就是最好的加速 LoRA?
在回答這個問題之前,我們可能還缺乏一些關鍵的資訊。

Checkpoint

所有LoRA都有各自使用的底模,使用相同或同系列的通常能得到較好或較可預期的結果。
每個 Checkpoint 有各自適合的 Sampler 與 Scheduler 等參數,這些都會影響加速LoRA的表現。
你可能有看過,有些人明明沒有使用加速 LoRA 卻也可以用極低的步數生成,
這其實是那些 Checkpoint 已經跟那些加速技術合併了,也就是它們自帶了加速 LoRA 的特性。
那如果我在合併後的 Checkpoint 再使用加速 LoRA,效果會翻倍嗎?

直接說結論,「已蒸餾的模型」再疊加加速 LoRA,通常不會線性變好,
因此大部分情況下並不會好多少,甚至可能更差。
原因是:

  • 蒸餾會「改寫時間步分布」
  • 再套 LoRA 等於再改一次 → 容易過擬合或崩壞

在我們的測試中使用的 Checkpoint 是 WAI-illustrious-v16

Sampler 與 Scheduler

有些人可能對這個參數不太熟悉,通常是預設或照抄大佬的,
這樣做沒有問題,因為有些時候這兩個確實不能亂改。
模型跟LoRA可能都有各自推薦的參數,以及不推薦的參數。
像是這次測試的 Rectified 使用的是 WAI-illustrious-Rectified-4Steps, 作者就有明確寫著:

  • Sampling steps: 4。
  • CFG scale: 1 ~ 1.5。
  • Sampling method: Euler、DPM (不要用 Euler a 或者 SDE 版本)。
  • Schedule type: Simple。
  • 底模為 WAI-illustrious-v14

既然作者都有推薦的參數了,我們就不用一個個測了。
雖然話是這麼說,其實對比圖中的所有圖都是用相同的 Sampler 與 Scheduler 跑的,
因為我懶有些LoRA推薦的參數本身就會影響在極低步數的生成品質,
再加上 WAI-illustrious-v16 作者建議的 Sampler 是 Euler a,
所以這次測試使用的 Sampler 與 Scheduler 統一都是 Euler a + normal。

所以 Rectified 是最優解嗎?
我的答案是 在這個情境中,是的
因為我使用的模型與LoRA的底模相同,且即使沒有使用推薦參數,仍然在測試中有著最好的表現。


AI 的技術解說

(本段落皆為AI生成,有興趣請自行查證內容)

這四種技術雖然目標都是「加速」,但它們在數學路徑和「教育模型的方式」上完全不同。

1. LCM (Latent Consistency Models)

  • 關鍵詞:自洽性 (Consistency)
  • 原理: 這是最早流行的加速方案。它的原理是強制讓模型學習「一致性」。它告訴學生:「不管你現在畫到哪一步,你腦中對終點的畫面必須永遠保持一致。」
  • 白話比喻: 傳統模型像是在迷霧中走路,每走一步才看清下一步;LCM 則是讓學生練就「縮地成寸」,讓他看到任何階段的草稿,都能立刻聯想到 50 步後的成圖長什麼樣子,從而直接跳躍到終點。

2. Hyper-SDXL (Trajectory Segment Distillation)

  • 關鍵詞:軌跡壓縮 (Trajectory Distillation)
  • 原理: 這是由字節跳動提出的方案,它使用了一種叫「軌跡段蒸餾」的技術。它不要求 1 步到位,而是把原本 50 步的長途跋涉,精確地壓縮成 2 步、4 步或 8 步的「大跨步」。
  • 白話比喻: 它是把名師畫畫的 50 步錄影帶,快轉成只有 4 個關鍵格的精華版。學生不需要學會瞬移,但他學會了**「如何用 4 筆畫完原本要畫 50 筆的畫」**,每一步的訊息量都極大。

3. DMD2 (Improved Distribution Matching Distillation)

  • 關鍵詞:分佈匹配 + GAN 損失 (Distribution Matching + GAN Loss)

  • 原理: DMD2 是目前品質最頂尖的方案之一。它結合了兩個強大的教育方法:

    1. 分佈匹配: 讓學生的作品在「整體風格分佈」上接近名師。
    2. GAN(對抗網絡): 引入一個「評論家」模型,專門挑剔畫面的細節(如皮膚紋理、光影)。
  • 白話比喻: 這不只是讓學生看錄影帶,還請了一位**「極其毒舌的藝評家」**坐在旁邊。只要學生畫出一點點 AI 感或模糊,藝評家就打回票。這迫使學生在極低步數下,依然能畫出極其真實的細節。

4. Rectified Flow

  • 關鍵詞:直線化路徑 (Straightening the path)
  • 原理: 這是目前最前沿的方向(也是 Flux 模型的基礎)。傳統擴散模型的去噪路徑是「彎曲」的,就像在蜿蜒的山路上開車。Rectified Flow 透過數學手段將路徑**「拉直」**。
  • 白話比喻: 以前生成圖案像是在走九彎十八拐的山路,必須分很多步走才不會翻車;Rectified Flow 則是直接在起點與終點之間開了一條**「直線高速公路」**。既然路是直的,你踩死油門衝過去(1~4 步)也不會偏移目標。


技術對比表

技術名稱核心絕招推薦步數優勢
LCM預測終點 (Consistency)4 ~ 8 Steps泛用性高,適合各種 LoRA
Hyper-SDXL軌跡精華 (Segment)1 / 2 / 4 Steps速度與品質的平衡極佳
DMD2藝評家監修 (GAN)1 / 4 Steps細節最強,皮膚與質感最真
Rectified直線超車 (Flow-based)1 ~ 4 Steps數學結構最優化,畫面最穩定



以上資訊皆為我個人經驗總結並使用AI做一些簡單的比喻,最後一個段落則全部由AI生成。