資策會數位轉型研究院─FIND中心

隨著數位影像的需求逐漸提升，高品質3D影像成為競爭力的關鍵，尤其在遊戲、AR、VR領域，但傳統3D影像建模需要大量時間及專業技術。為了解決這個問題，Nvidia與Shutterstock合作推出的Edify-3D，一款可以自由生成各式3D圖像的AI工具，只需透過文字或圖像提示就能快速製作出3D影像，短短2分鐘就能生成出高品質的3D影像，具備精確的網格結構、高解析度紋理（最高可達4K）和物理基礎渲染（PBR）材料。

本篇文章將分為兩部分，首先介紹 Edify-3D 的核心技術與功能，接著探索其在不同領域中的應用及未來發展。本篇先就這項技術如何改變 3D 影像創作的未來進行分享。

Edify-3D核心概念

Edify-3D所使用的概念類似影像處理，透過多個角度的圖像結合文本訓練，產生出高品質的3D圖像，Edify-3D主要兩個核心概念為多視角擴散模型（Multi-view Diffusion Model）以及重建模型（Reconstruction Model），茲說明如下：

多視角擴散模型（Multi-view Diffusion Model）

Edify-3D基於NVIDIA的Edify Image模型，將其擴散架構應用於像素空間並結合多視角擴散模型。使得模型能夠從不同角度的2D圖像中生成物體的RGB圖像，並且對每個角度使用相同的權重進行運算，從而更準確地捕捉物體的結構細節，產出對應的法線圖像（Normal images）。

重建模型（Reconstruction Model）

重建（Reconstruction）是將平面影像轉為立體圖像的關鍵部分；輸入多視角擴散模型生成的圖像後，經過重建模型預測出3D特徵，再使用各式渲染工具將3D特徵加上對應的顏色、紋理、材質，最終生成出完整的3D模型。

透過上述的方式大幅提升生成3D影像效率，當輸入越多視角（viewpoint），所產出的結果就會越好，透過多角度viewpoint進行訓練也可以提升模型的效率及準確度，能廣泛的應用在不同的情境如遊戲、模擬、虛擬環境建置上。

圖1： Edify-3D模型架構
圖片來源: https://research.nvidia.com/labs/dir/edify-3d/

結論

總結來說，Edify-3D的核心技術——多視角擴散模型和重建模型，使得 3D 模型的生成過程更加精確和高效。這些技術不僅能夠大幅提高創作速度，還能在保持高品質的情況下縮短設計週期，這對於創作者和企業來說都是一大福音。透過多視角訓練，Edify-3D 能夠更加準確地捕捉物體的結構和細節，並將其轉化為完美的 3D 資產。

下一篇將探討 Edify-3D 在各行各業中的應用，並展望其在未來如何改變更多領域的工作方式和創作模式。

封面圖片來源：Edify 3D: Scalable High-Quality 3D Asset Generation，網址：https://arxiv.org/pdf/2411.07135

參考資料來源：
1.Edify-3D Paper，網址：https://research.nvidia.com/labs/dir/edify-3d/
2.Edify-3D官網，網址：https://build.nvidia.com/shutterstock/edify-3d
3.Edify Image Paper，網址： https://research.nvidia.com/labs/dir/edify-image/
4.NVIDIA（2024）。Decoding NVIDIA Edify — The Technology That Helps Developers Create Custom Models Trained on Their Data，網址：https://blogs.nvidia.com/blog/ai-decoded-edify/

Nvidia最新黑科技—用生成式AI瞬間建構沉浸式世界（上）

Nvidia最新黑科技—用生成式AI瞬間建構沉浸式世界（上）