《AIGC系列文章10》Multi Diffusion：一種全新的AI構圖方式，讓使用者更能直覺構圖

李啟榮
2023-10-18
人工智慧
1311
分享

在AI生成式內容（AI-generated contents, AIGC）發展出自動繪圖能力的早期階段，圖片生成的品質偶爾會發生一些不合理的構圖、不符合現實世界場景，但AI常見的改善和解決方法，就是藉由反覆學習方式，讓AI產圖逐步符合現實場景。

現在隨著AI對於關鍵字（Prompt）語意理解能力的進步，AI產圖的品質也開始提升、更接近現實場景；而Multi Diffusion繪圖引擎能以物件區塊構圖方式下達關鍵字，讓AI構圖能有接近人眼視覺的構圖能力，使AI引擎產生出來的圖片更真實，構圖更為直覺。

【技術發展背景】

AI生成圖片帶來了快速上手的便利性，使用者甚至能用一串句子來生成一張圖片，不費吹灰之力；若要用AI引擎來生出一張具有美感且栩栩如生的藝術性圖片，就需要藉由蒐集更多的圖片樣本，以及反覆的關鍵字訓練，最後才能生出使用者所期望的藝術性圖片。

一支來自以色列魏茲曼科學研究學院（Weizmann Institute of Science）的團隊發表論文指出 (Bar-Tal, Yariv, Lipman, & Dekel, 2023)，該團隊推出的「Multi Diffusion」AI繪圖引擎，可以用下關鍵字的方式，先決定背景情境、再決定物件主體，最後決定物件和背景之間的相對位置和物件比例，如此一來，由系統自動產生的圖片，將具備帶有景深的構圖、凸顯物件主體，讓AI構圖比以往更接近真實場景。

【技術介紹與應用現況】

相較於坊間主流AI繪圖引擎，採用多關鍵字或一整句英文來繪製一張圖片，研究團隊利用關鍵字（或關鍵句）分別對應到背景、物件的方法，由使用者先構圖決定背景，再決定背景中需要擺設哪種物件，決定物件的位置或輪廓，即可自動產生圖片。

圖 1 方法一，先畫出物件輪廓再產生物件

資料來源：Bar-Tal, Yariv, Lipman, & Dekel, 2023

圖 2 先決定物件相對位置再產生物件

資料來源：Bar-Tal, Yariv, Lipman, & Dekel, 2023

圖 3 決定物件位置後，試產出多種圖片變體

資料來源：Bar-Tal, Yariv, Lipman, & Dekel, 2023

Multi Diffusion的構圖方式，類似於「圖像分割（Image segmentation）」的方式，可利用演算法判定主體物件，再加入景深效果，將AI算圖整合電腦視覺的元素，使產生的圖片更接近真實世界的視野。

【未來展望／挑戰】

Multi Diffusion帶來了全新且易上手的AI算圖方法，藉由安排主體與背景位置來創造具有真實感的AI繪圖；未來若能朝向AI自動生成動畫、多圖層繪圖發展，就可以跟Adobe Flash一樣，用更簡單易懂的方式來創造栩栩如生的動畫。

封面圖片來源: 123RF

參考資料

Bar-Tal, O., Yariv, L., Lipman, Y., & Dekel, T. (2023). MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation. The Fortieth International Conference on Machine Learning (ICML). Honolulu, HI: ACM.

財團法人資訊工業策進會_蒐集個人資料告知事項暨個人資料提供同意書

《AIGC系列文章10》Multi Diffusion：一種全新的AI構圖方式，讓使用者更能直覺構圖

專家群介紹

王志清

吳俊達

彭賢恩

蔡政安

鄭旭高