【技術介紹與應用現況】
自2015年GAN提出後,利用電腦AI生成2D圖像的技術開始快速成長,到了2020年Diffusion models發表及2022年Stable Diffusion開源後大量的2D生成圖片應用出現,一般人都可透過免費工具就把一段話(或是咒語)轉成圖像,此一工具已成為Youtuber競相拍攝教學影片的焦點,AI生圖不僅快速,甚至已達到可商用品質,未來3D模型自動生成圖像應該也是水到渠成了。3D模型與2D圖像有哪些差一點,本文就帶您一探究竟。
3D模型生成的發展進度比2D圖像慢了許多,這是因為3D模型跟2D圖像有以下本質上的不同:
圖1 “Tom Clancy's The Division” 遊戲的場景製作費用
資料來源:The Next Leap: How A.I. will change the 3D industry - Andrew Price
【3D模型生成技術案例】
以下介紹幾個目前著名的3D模型生成技術:
Open-AI公司所提出的3D模型生成式AI,由於ChatGPT也是由同一間公司提出所以特別值得注意。Point-E的生成過程是先將文字轉預覽圖像,再由圖像轉成點雲圖(point cloud),最後再擴散並透過Upsampling技術增加細節得到較細緻的成果,如下圖。
圖2 Point-E圖像生成流程
資料來源:OpenAI
主要想解決的問題是模型生成的速度,Point-E的"point"表示點雲,"E"則是"efficiency"表示效率的意思,Point-E使用NVIDIA V100 GPU只需要數分鐘時間就可以完成模型生成,相比DreamFusion或是DreamFields技術從文字產生模型需耗費NVIDIA V100數十小時甚至上百小時運算時間。
是由Google公司所提出,主要是利用Text-to-Image與NeRF(一種透過提供一個物體多張角度影像作為輸入,可產生一張該物體全新角度的影像的技術)這種Inverse Graphics的技術,來達到Text-to-3D的生成,產生的模型質量較高可以重新上色與打光。
圖3 DreamFusion產生的圖像與模型範例
資料來源:Google Research
提出一種可以結合圖像、文字說明或是簡易外觀或部分形狀的模型作為輸入,為用戶去生成一個完整3D模型的框架。
圖4 SDFusion的執行流程
資料來源:https://arxiv.org/abs/2212.04493
SDFusion提供以下多種輸入內容的組合轉成3D模型:
圖5 SDFusion的多種類輸入與範例
資料來源:https://arxiv.org/abs/2212.04493
【未來展望與挑戰】
現階段3D模型生成技術做出來的模型看起來還不錯,但無法真的拿來使用,這跟2D圖像生成一開始發展時有點相似,但由於3D模型製作與2D繪圖不同,2D圖像有缺陷還有機會透過繪師調整回來,但3D模型若一開始的Mesh存在缺陷,例如出現不該出現的圖像,或是該連接的地方沒有連接起來,修改起來的時間成本可能不如重做會來的快些。
由於3D模型在製作成品上有更高的要求,因此現階段3D生成模型工具的用途多與增加工作效率有關,例如以下之情境:
短期內,建模的工作會因為AI生成加入提升工作效率,但要完全取代建模師的工作,還需要時間發酵,但從電腦軟體技術發展的軌跡來看,未來一定會變得更快、更好、更便宜,也說不定下個月這個未來就到了!
參考來源:
1.封面圖資料來源: https://www.freepik.com/
2.The Next Leap: How A.I. will change the 3D industry - Andrew Price:https://www.youtube.com/watch?v=FlgLxSLsYWQ
3.DreamFusion: Text-to-3D using 2D Diffusion https://dreamfusion3d.github.io/
4.SDFusion https://yccyenchicheng.github.io/SDFusion/
5.Point-E : https://openai.com/research/point-e