擴散模型 - 現代AI圖像生成的大躍進

今年，隨著生成式AI技術的推陳出新，文字生成圖像的生成式AI迅猛成長，大大提升了AI模型所能創造的藝術保真度。雖然像Stable Diffusion和DALL-E 3這樣的模型具有爭議性，但包含一些視覺創作平台已然採用基於擴散模型的生成式AI來做生成創作，甚至新創品牌用來構思發想新的產品。

然而，這些在模型背後的技術遠遠不僅能做生成藝術的創作，這種被稱為「擴散模型」的技術，被一些勇於嘗試的研究團隊用來創作音樂、合成DNA序列，甚至發現新藥物。

【擴散技術觀測】

那麼，回過頭來，擴散到底是什麼，為什麼它比之前的技術有了如此迅速的進步？並備受商業上期待，值得好好探討以及它如何隨著時間的推移，成為今日最具勢頭及影響力的AI生成技術。擴散的成就還在延續，隨著時間過去，技術上的改進還在不斷的推陳出新，但在過去一兩年間因其開源性帶來了爆炸性的成長。

基於stable diffusion模型搭配Civitiai訓練模型的寫實model

圖1 基於stable diffusion模型搭配Civitiai訓練模型的寫實model

資料來源：https://blog.256pages.com/best-3-realistic-model-stable-diffusion/

【擴散的誕生】

或許幾年前流行的Deepfaking apps - 在臺灣鬧得沸沸揚揚，將人的肖像插入既有的圖像和影像當中，以創造看似真實的假象替代。而這些應用了一種稱為生成對抗網絡（GANs）的AI技術。GANs由生成器和判別器組成：生成器從隨機數據生成合成樣本（例如圖像或影像），而判別器嘗試判別生成的樣本以及來自數據庫模型的原始採樣。

然而，GANs在實務上存在一些缺陷，由於架構的設計，生成器和判別器的模型同時訓練在本質上是不穩定的，有時生成器會“崩潰”並輸出大量看似相似的樣本。此外，GANs需要大量且多樣性的數據庫和運算能力來支撐運行和訓練，這會使得GANs陷入瓶頸。

【擴散的運作原理】

擴散的靈感來自物理中的一個自然過程，如流體從高濃度區域移動到低濃度區域，如同墨水滴入水中後的暈開過程。擴散模型受到了非平衡熱力學中的擴散過程所啟發，當中過程是隨著時間的推移增加了系統中的entropy或者說隨機性。可以看成氣體在流動中的填滿整個空間。而像圖像這樣的數據可以透過隨機添加雜訊而轉化為均勻分佈無意義圖像，然而不斷添加雜訊來漸漸破壞數據的結構，直到只剩下雜訊為止。(值得一提的是，雖然是隨機添加雜訊但其隨機性還是有限制，是基於前一步進行隨機性的雜訊破壞。)

Diffusion

圖2 Diffusion

資料來源：Science facts.net

在物理學中，擴散是自發的且不可逆的現象，而在滴入水中的墨滴無法聚攏。但機器學習(ML)中的擴散模型本質是在學習一種“反向擴散”過程，從以被雜訊篒後的數據中恢復，從雜訊化中得到生成數據的能力。

Diffusion Process & Denoising process

圖3 Diffusion Process & Denoising process

資料來源：medium.com - GGWithRabitLIFE

擴散模型2015年由史丹佛大學發表論文至今已然存在了近十年。但由OpenAI最近推出的一項名為CLIP（Contrastive Language-Image Pre-Training）的創新使其在日常應用中變得更加實用。CLIP對數據進行分類例如圖像以基於文字敘述，例如＂空中一顆流星的素描”的敘述下評分其擴散過程的每一步，評分是基於其在給文字敘述的提示中被分類的可能性有多大。隨著擴散模型從雜訊中重建數據，它慢慢地接近匹配文字提示。一個有用的比喻就像一位大師級的木雕家告訴學徒如何雕刻一塊原木，從何處下刀。CLIP引導著擴散模型朝著給出更高分的圖像方向前進。

OpenAI將CLIP與生成圖像的模型DALL-E同時推出。從那刻起，它已經被應用於DALL-E的後繼版本DALL-E3，以及像Stable Diffusion這樣的開源替代方案。

OpenAI Dall-E3

圖4 OpenAI Dall-E3

資料來源：mspoweruser.com

那麼，CLIP引導的擴散模型能做什麼呢？嗯，正如前文所敘述，它們在生成藝術方面的成就已然成果豐碩。從生成的圖像其逼真的藝術到幾乎任何藝術家風格的繪畫技巧。然而其模型的應用不僅於此。

Dall - E3 生成創成(頭髮凌亂的女性, 使用GOPRO自拍)

圖5 Dall - E3 生成創成(頭髮凌亂的女性, 使用GOPRO自拍)

資料來源：Bing.com - user generate

研究人員還嘗試使用引導擴散模型來創作音樂。Harmonai是一個由Stability AI提供資金支持的組織，他們推出了一個基於擴散的模型，通過訓練現有歌曲的數百小時，可以輸出音樂片段。最近，開發者Seth Forsgren和Hayk Martiros創建了一個名為Diffusion的業餘項目，該項目在音樂頻率上的頻譜圖訓練的擴散模型，進而生成曲調。

Diffusion - 頻譜圖

圖6 Diffusion - 頻譜圖

資料來源：m.cnbeta.com.tw

除了音樂領域之外，有實驗室正試圖將擴散技術應用於生物醫學，希望發現新的疾病治療方法。初創公司Generate Biomedicines和華盛頓大學團隊訓練了基於擴散模型，以生成具有特定性質和功能的蛋白質設計。他們已經取得了一些成果，華盛頓大學小組設計的模型能夠找到一種與現有藥物相比更好地附著於副甲狀腺激素的蛋白質。

另一方面在Stability AI支持的OpenBioML，這是基於一個去中心化的協作研究機構，研究開發一種稱為DNA Diffusion的擴散模型，用於生成特定細胞類型的調控DNA序列，這些序列是影響生物體內特定基因表達的核酸分子片段。DNA-Diffusion如果一切按計劃進行從文字敘述來下指令生成調控DNA序列，例如“一個能在X細胞型中將基因最大程度地表達的序列”和“在肝臟和心臟激活基因的序列，而不在大腦中激活”。

【應用效益評析】

對於擴散模型來說，未來是無限可能的。目前已將其應用於生成影像、圖像以及合成語音。但擴散會不會被更高效、更高性能的機器學習技術所取代，就像GANs被擴散模型所取代一樣。就目前而言3D影像因其數據庫擴展不易導致有其侷限性，以及如何達到更穩定的擴散都是往後的著力點，但在現今的架構，擴散模型毫無疑問是可廣泛利用的一門的技術。

封面圖片來源：

https://medium.com/@ciguleva/how-diffusion-models-create-unique-images-high-level-overview-3bacc86a2198

參考資料來源：

1.https://stability.ai/

2.https://blog.256pages.com/best-3-realistic-model-stable-diffusion/

3.https://techcrunch.com/2022/12/22/a-brief-history-of-diffusion-the-tech-at-the-heart-of-modern-image-generating-ai/

4.https://www.sciencefacts.net/diffusion.html

5.https://hot.cnbeta.com.tw/articles/music/1335667.htm

6.https://mspoweruser.com/how-to-use-openais-dall-e-3-for-free-today/