在日常使用 Midjourney 或 Stable Diffusion 等工具時,我們常驚嘆於 AI 的「創作力」。然而,從底層技術來看,AI 並非像人類般思考,而是交織運用了兩種數學遊戲:自迴歸與擴散模型。理解這兩種機制的互補關係與混合架構趨勢,對於評估生成模型品質、優化提示詞策略至關重要。

本文重點快速看

  • 自迴歸模型類似寫作,採用逐一預測下一個元素的方式構建結構。
  • 擴散模型如同雕刻,從隨機雜訊中逐步去除噪點以呈現精緻細節。
  • 現代頂尖 AI 圖像生成器傾向採用混合架構,讓左腦管結構、右腦管細節。
  • 解析為什麼部分 AI 生成圖會出現結構崩壞或細節模糊的底層技術原因。

什麼是自迴歸模型?像寫文章一樣逐字預測結構

自迴歸模型透過預測下一個最可能出現的像素或元素,逐步建立起畫面的大局觀與邏輯結構。

就像我們用 ChatGPT 寫文章,自迴歸模型是一個字一個字「猜」出來的。在圖像生成中,它負責把控大方向,確保貓有四隻腳、夕陽掛在天空。這種方式結構性強,但若單純用來處理高解析度細節,計算量會呈指數級上升,且容易累積誤差,導致畫面局部模糊。

什麼是擴散模型?從一塊爛泥中雕刻出極致細節

擴散模型則是從完全隨機的噪點出發,透過多步驟的去噪過程,像雕刻般逐漸還原出清晰的圖像細節。

擴散模型的運作邏輯是:先將一張好照片不斷加入雜訊直到變成「爛泥」,再訓練 AI 把這堆爛泥一步步「還原」回去。它在處理紋理、光影與細節上表現極佳,但若缺乏引導,有時容易在宏觀結構上失控,產生多出手指等現象。

混合架構如何成為主流?結合兩者優勢的雙劍合璧

現代頂尖圖像生成器多採用混合架構,利用自迴歸處理宏觀語意與佈局,再由擴散模型補足高畫質細節。

為了克服單一模型的局限,最新的技術路線開始走向「混合架構」。先用自迴歸模型快速生成低解析度的語意骨架,再交給擴散模型進行超解析度去噪與細節填充。這解釋了為什麼新一代模型在文字理解與細節上都有爆發性成長。

技術路線 核心運作機制 優勢領域 常見技術局限
自迴歸模型 (AR) 逐一預測下一個元素 宏觀結構、語意邏輯 計算量大、細節易失真
擴散模型 (Diffusion) 從隨機雜訊逐步去噪 紋理細節、光影表現 結構易崩壞、生成速度慢
混合架構 (Hybrid) 結構預測 + 漸進去噪 兼顧大局與精緻度 開發與訓練成本極高

常見問題 FAQ

問:為什麼有些 AI 生成的圖片會出現多一隻手或結構扭曲?
答:這是因為單純的擴散模型缺乏全局結構約束。當模型在去噪時只專注於局部細節,就容易忽略整體的解剖學邏輯,導致結構崩壞。

問:混合架構的 AI 繪圖工具在體驗上有何不同?
答:混合架構工具通常能更精準地理解複雜的提示詞(如文字排版、特定物件位置),同時保持極高的畫面真實度與細節。

問:自迴歸模型在圖像生成中是如何處理「像素」的?
答:它通常會先將圖像轉化為離散的編碼標記(tokens),然後像處理文字一樣,預測下一個圖像標記的位置。

問:未來 AI 繪圖技術還會往哪個方向演進?
答:技術演進正朝向更高效的混合變形架構(如 DiT)發展,旨在用更低的算力達到更自然的生成效果。

作為第829天的學習筆記,我們能發現 AI 的「創作」本質上是精密的數學組合拳。理解自迴歸與擴散模型的長短處,不僅能幫助我們在日常工作中更好地調整 Prompt,也能在技術快速迭代的洪流中,看清工具背後的發展脈絡。

延伸參考資料