以AI生成3D模型技術之觀察與未來展望



近來AI影像生成技術可謂叱吒風雲,僅需隻字片語就可以生出大致符合使用者所需的圖像,文字描述得越詳細就可以越接近使用者所想要的圖像,雖然還有一些小缺陷,但目前來看技術已經趨於成熟,大致上可以滿足商業或個人使用。 2D影像生成技術

圖1:2D影像生成技術

資料來源:MyEdit線上影像生成工具網頁

2D與3D的差異

而以上說的僅是2D影像生成的部分,若是牽涉到3D模型生成的話,所面臨的問題更難也更複雜。一般來說,如果要生成一隻貓咪的2D圖片,AI的訓練資料就僅是各種平面的貓咪照片,網路上任意蒐集就可獲得成千上萬張各種品種、體型、花色及各種角度的真實貓咪照片。相對來說,訓練資料取得並不難,最後只要使用者輸入品種、體型、花色就可以得到想要的貓咪圖片。

但若要生成3D模型,訓練資料則必須是3D網格體資料。3D網格體的傳統製作方式為透過建模軟體人工手繪,後來進步成雷射掃描,取得成本遠較2D資料為高,產量也有限,再加上三維空間的相關背景知識遠比二維平面來得複雜,又更增加相關演算法的設計與機械學習設計的難度。

光是3D網格體還不足以構成一個完整的3D模型,網格體僅是描述外型的資料,貼上貼圖後才能看到有色彩的3D模型,因此也要包含貼圖生成相關的訓練與演算法設計。

一隻海豚的網格體

圖2:一隻海豚的網格體

資料來源:維基百科(多邊形網格)

 

【3D內容生成技術廠商介紹】

LATTE3D

LATTE 3D一詞原是指一種拿鐵咖啡的立體拉花技術,刻意將奶泡用較久的時間打到奶泡呈現高硬度,隨後將堅挺的奶泡鋪在拿鐵咖啡之上,再用牙籤等工具將其雕刻成各種可愛的動物立體模型,在日本曾經風靡一時。其作業流程相當類似於3D列印技術,但其實打得過久的奶泡味道苦澀,不能為咖啡的味道帶來加分,僅供觀賞用途。

Latte 3D立體拉花

圖3:LATTE 3D立體拉花

資料來源:THE JAPAN NEWS

知名GPU大廠NVIDIA所發表的LATTE3D技術,使用方式就像已經日趨成熟的2D影像生成一樣,只要輸入文字即可生成3D模型,且得益於現代高性能GPU的龐大算力,過去需要數小時才能生成一個3D模型,現在僅要數秒內就可做到。

只不過目前生成的結果大多比較單調,沒辦法像如日中天的2D生成技術一樣可以產生多采多姿甚至以假亂真的圖像,如果是已經用習慣2D生成的人突然來用LATTE3D肯定會大失所望,無法生成太複雜的圖像。比如要圖像中人物表達出悲喜哀樂等或做出複雜的動作目前都還不行或效果有限,僅能滿足一部分3D建模師的需求,生成模型後還需加以打磨才有辦法實際拿來使用,若是面對廣大一般民眾,恐怕商用價值還不太足夠。

LATTE3D生成的模型

圖4:LATTE3D生成的模型

資料來源:NVIDIA官網

Meshy

Meshy是一個目前已經上線的強力3D內容生成服務平台,除了可以直接用文字生成3D模型,亦能用2D圖片來生成3D模型,還有就是尚未擁有貼圖資料的空白網格體生成貼圖,皆為實用且強大的功能。

Meshy生成的模型

圖5:Meshy生成的模型

資料來源:Meshy官網

Meshcapade

Meshcapade特色強烈,可以由文字生成細膩的人物模型,當然人物模型的骨架是事先預備好的,屬於有大量人工干預的生成技術,支援各大知名電玩遊戲引擎、3D建模軟體,人物動畫功能豐富,可以讓遊戲設計輕鬆擁有以往需要高成本才能製作出來的人物動畫。

Meshcapade生成的人物模型

圖6:Meshcapade生成的人物模型

資料來源:Meshcapade官方影片

Avaturn

Avaturn專攻頭像生成,拿起手機幫自己拍多角度頭像照片,就可以由這些照片為素材生成逼真的頭部模型。平台中內建人體系統,除可以自由調整體型,還可選擇各種服飾、配件、髮型,同樣具有大量人工干預的生成技術,備有可以套用的模板,生成的模型同樣支援各大遊戲引擎與建模軟體。

以多個角度的自拍照來生成自己的頭像

圖7:以多個角度的自拍照來生成自己的頭像

資料來源:Avaturn官方影片

結語

不若2D生成技術已經有龐大的時間投入與訓練資料,3D生成技術目前仍處於半生不熟的狀態,不過已經可以滿足許多製作遊戲或動畫的專業人士使用,生成出來的3D模型還需要有相關背景的建模師好好打磨一番,動畫也需要動畫師去把多段生成出來的動畫拼接後再做微調才能使用,否則品質堪憂。

但儘管如此,目前3D生成技術已經能幫小型遊戲/動畫工作室省下大筆資金,去做出以往需要龐大資金才有辦法做出的內容,小成本製作出接近3A等級的大製作已經不再是夢想。

得益於3D的特性,光影效果肯定會是一大強項,2D生成技術的光影效果肯定難以匹敵。不論生成的模型如何,3D空間的光影效果相關技術早就已經相當成熟且可以假亂真,並不需要由AI生成,每個遊戲引擎與建模軟體早就有現成的強大即時光影技術可以使用,假若未來3D模型與動畫生成更加成熟,配合上本來就已經很強大的光影效果,即可實現對2D生成技術的彎道超車。

強大的3D光影效果

圖8:強大的3D光影效果

資料來源:維基百科(光線追蹤) 

不過,3D生成還有一大隱患,由於3D世界遠較2D複雜,所需的GPU算力肯定是數倍甚至數十倍,這將大大提高平台的建置成本,即便技術成熟,恐怕也要等成本足夠便宜才有辦法普及。

 

封面圖片來源:https://blogs.nvidia.com.tw/2024/03/22/latte-3d-generative-ai-research/

參考資料來源:

1.MyEdit 2D圖像生成平台:https://myedit.online/tw/photo-editor/ai-image-generator?utm_source=blog_cht&utm_medium=referral&utm_campaign=2345-best-ai-image-generators&affid=2581_-1_1005_2345

2.維基百科(多邊形網格):https://zh.wikipedia.org/zh-tw/%E5%A4%9A%E8%BE%B9%E5%BD%A2%E7%BD%91%E6%A0%BC

3.THE JAPAN NEWS:https://japannews.yomiuri.co.jp/features/delicious/20230502-107068/

4.Meshy 3D圖像生成平台:https://www.meshy.ai/

5.Meshcapade 3D圖像生成平台:https://meshcapade.com/

6.Meshcapade官方youtube影片:https://www.youtube.com/watch?v=qVYelkFkkTM&t=23s

7.Avaturn 3D圖像生成平台:https://avaturn.me/

8.Avaturn官方youtube影片:https://www.youtube.com/watch?v=rSb0Io92_R8&t=47s

9.維基百科(光線追蹤):https://zh.wikipedia.org/zh-tw/%E5%85%89%E7%B7%9A%E8%BF%BD%E8%B9%A4

延伸閱讀