《AIGC系列文章10》Multi Diffusion:一種全新的AI構圖方式,讓使用者更能直覺構圖



 

在AI生成式內容(AI-generated contents, AIGC)發展出自動繪圖能力的早期階段,圖片生成的品質偶爾會發生一些不合理的構圖、不符合現實世界場景,但AI常見的改善和解決方法,就是藉由反覆學習方式,讓AI產圖逐步符合現實場景。

現在隨著AI對於關鍵字(Prompt)語意理解能力的進步,AI產圖的品質也開始提升、更接近現實場景;而Multi Diffusion繪圖引擎能以物件區塊構圖方式下達關鍵字,讓AI構圖能有接近人眼視覺的構圖能力,使AI引擎產生出來的圖片更真實,構圖更為直覺。

【技術發展背景】

AI生成圖片帶來了快速上手的便利性,使用者甚至能用一串句子來生成一張圖片,不費吹灰之力;若要用AI引擎來生出一張具有美感且栩栩如生的藝術性圖片,就需要藉由蒐集更多的圖片樣本,以及反覆的關鍵字訓練,最後才能生出使用者所期望的藝術性圖片。

一支來自以色列魏茲曼科學研究學院(Weizmann Institute of Science)的團隊發表論文指出 (Bar-Tal, Yariv, Lipman, & Dekel, 2023),該團隊推出的「Multi Diffusion」AI繪圖引擎,可以用下關鍵字的方式,先決定背景情境、再決定物件主體,最後決定物件和背景之間的相對位置和物件比例,如此一來,由系統自動產生的圖片,將具備帶有景深的構圖、凸顯物件主體,讓AI構圖比以往更接近真實場景。

【技術介紹與應用現況】

相較於坊間主流AI繪圖引擎,採用多關鍵字或一整句英文來繪製一張圖片,研究團隊利用關鍵字(或關鍵句)分別對應到背景、物件的方法,由使用者先構圖決定背景,再決定背景中需要擺設哪種物件,決定物件的位置或輪廓,即可自動產生圖片。

 

 

圖 1 方法一,先畫出物件輪廓再產生物件

資料來源:Bar-Tal, Yariv, Lipman, & Dekel, 2023

 

 

圖 2 先決定物件相對位置再產生物件

資料來源:Bar-Tal, Yariv, Lipman, & Dekel, 2023

 

  

圖 3 決定物件位置後,試產出多種圖片變體

資料來源:Bar-Tal, Yariv, Lipman, & Dekel, 2023

Multi Diffusion的構圖方式,類似於「圖像分割(Image segmentation)」的方式,可利用演算法判定主體物件,再加入景深效果,將AI算圖整合電腦視覺的元素,使產生的圖片更接近真實世界的視野。

【未來展望/挑戰】

Multi Diffusion帶來了全新且易上手的AI算圖方法,藉由安排主體與背景位置來創造具有真實感的AI繪圖;未來若能朝向AI自動生成動畫、多圖層繪圖發展,就可以跟Adobe Flash一樣,用更簡單易懂的方式來創造栩栩如生的動畫。

 

封面圖片來源: 123RF

參考資料

  1. Bar-Tal, O., Yariv, L., Lipman, Y., & Dekel, T. (2023). MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation. The Fortieth International Conference on Machine Learning (ICML). Honolulu, HI: ACM. 

 

 

 

 

延伸閱讀