Nvidia最新黑科技—用生成式AI瞬間建構沉浸式世界(上)

post image

隨著數位影像的需求逐漸提升,高品質3D影像成為競爭力的關鍵,尤其在遊戲、AR、VR領域,但傳統3D影像建模需要大量時間及專業技術。為了解決這個問題,Nvidia與Shutterstock合作推出的Edify-3D,一款可以自由生成各式3D圖像的AI工具,只需透過文字或圖像提示就能快速製作出3D影像,短短2分鐘就能生成出高品質的3D影像,具備精確的網格結構、高解析度紋理(最高可達4K)和物理基礎渲染(PBR)材料。

本篇文章將分為兩部分,首先介紹 Edify-3D 的核心技術與功能,接著探索其在不同領域中的應用及未來發展。本篇先就這項技術如何改變 3D 影像創作的未來進行分享。

Edify-3D核心概念

Edify-3D所使用的概念類似影像處理,透過多個角度的圖像結合文本訓練,產生出高品質的3D圖像,Edify-3D主要兩個核心概念為多視角擴散模型(Multi-view Diffusion Model)以及重建模型(Reconstruction Model),茲說明如下:

  • 多視角擴散模型(Multi-view Diffusion Model)

Edify-3D基於NVIDIA的Edify Image模型,將其擴散架構應用於像素空間並結合多視角擴散模型。使得模型能夠從不同角度的2D圖像中生成物體的RGB圖像,並且對每個角度使用相同的權重進行運算,從而更準確地捕捉物體的結構細節,產出對應的法線圖像(Normal images)。

  • 重建模型(Reconstruction Model)

重建(Reconstruction)是將平面影像轉為立體圖像的關鍵部分;輸入多視角擴散模型生成的圖像後,經過重建模型預測出3D特徵,再使用各式渲染工具將3D特徵加上對應的顏色、紋理、材質,最終生成出完整的3D模型。 

透過上述的方式大幅提升生成3D影像效率,當輸入越多視角(viewpoint),所產出的結果就會越好,透過多角度viewpoint進行訓練也可以提升模型的效率及準確度,能廣泛的應用在不同的情境如遊戲、模擬、虛擬環境建置上。

圖1: Edify-3D模型架構
圖片來源: https://research.nvidia.com/labs/dir/edify-3d/

結論

總結來說,Edify-3D的核心技術——多視角擴散模型重建模型,使得 3D 模型的生成過程更加精確和高效。這些技術不僅能夠大幅提高創作速度,還能在保持高品質的情況下縮短設計週期,這對於創作者和企業來說都是一大福音。透過多視角訓練,Edify-3D 能夠更加準確地捕捉物體的結構和細節,並將其轉化為完美的 3D 資產。

下一篇將探討 Edify-3D 在各行各業中的應用,並展望其在未來如何改變更多領域的工作方式和創作模式。

 

封面圖片來源:Edify 3D: Scalable High-Quality 3D Asset Generation,網址:https://arxiv.org/pdf/2411.07135

參考資料來源
1.Edify-3D Paper,網址:https://research.nvidia.com/labs/dir/edify-3d/
2.Edify-3D官網,網址:https://build.nvidia.com/shutterstock/edify-3d
3.Edify Image Paper,網址: https://research.nvidia.com/labs/dir/edify-image/
4.NVIDIA(2024)。Decoding NVIDIA Edify — The Technology That Helps Developers Create Custom Models Trained on Their Data,網址:https://blogs.nvidia.com/blog/ai-decoded-edify/

鄭怡仙、姜禮煌

2025-02-06

分享: 0 瀏覽量: 297