AI創意之源: Sora再掀科技創作新浪潮



2024年2月15日,OpenAI公開發表了一項名為「Sora」的AI影片生成技術,這是可由文字驅動的AI影片生成模型。這項具突破性的影片生成技術,可以根據用戶輸入的文字描述,快速生成逼真的影片,並精準控制影片的細節,包括人物、場景、動作和表情等。更甚者,還可以依循用戶所指定的電影風格(如燈光、顏色和攝影機角度)來進行影片生成。

令人驚豔的AI影片生成技術問世

Sora 的問世,無疑為生成式AI技術在影片製作領域跨出一大步,並帶來廣泛的應用前景。自2023年的 ChatGPT 到2024年的 Sora,各種形式的 AI 應用不斷湧現,從語音生成、圖片生成到音樂生成,甚至是影片生成,都展現巨大的商業價值。這些技術的蓬勃發展也引發廣泛討論,許多文創與科技從業者都在思考,隨著這些技術的普及,是否會對工作帶來影響?傳統的影片製作過程往往需要耗費大量時間、人力、費用,而由文字驅動影片生成的AI技術,將能夠顯著簡化既有過程,降低影片產製成本,並大幅提高製作效率。

Sora運作原理概述

早在Sora問世之前,各大科技巨頭(如:Meta、Google等)與AI新創均爭相角逐AI 影片生成技術發展,然而與圖片生成相比,影片生成技術發展上將面臨著兩大挑戰:「影格銜接連貫性」及「物理變化合理性」。

從OpenAI官網資料得知,Sora是採用了Diffusion Transformer架構,所以在解析Sora運作原理前,我們須稍微回顧一下ChatGPT的運作機制。在ChatGPT的文本生成的過程中,「Token」是文本的基本單位元(其代表著一個字詞或子詞),模型會根據已生成的 Token 預測下一個 Token,然後將其添加到生成的文本序列中。透過不斷重複這個過程,模型就能夠生成連貫且自然的文本

Sora之所以會採用Diffusion Transformer架構,其主要的考量就是希望能夠借助Transformer模型的特性來解決「影格銜接連貫性」的技術問題。而在Sora的影片生成過程中,「Patch」是影片的基本單位 (其代表著在時間和空間上對影片進行分割後的一個小區塊)。在 Diffusion Transformer 中,模型使用 Transformer 架構來處理這些 patch。這意味著模型不僅能夠捕捉圖像或影片中單個 patch 的特徵,還能夠考慮它們之間的相互關係。這樣做的目的是為了更有效地處理圖像或影片數據,並更好地理解它們的結構和內容。

視覺資料轉換示意圖

圖1視覺資料轉換示意圖

圖片來源:OpenAI

我們可以試著用動漫製作來進一步理解Sora的影片生成,首先Sora運用了Diffusion的特性來進行單一影格(圖像)生成,於生成的過程中同步搭配Transformer的特性來控制圖像上各顯示區塊的關聯,並擴展至讓時間序列上各個影格(圖像)變化也具備了時序關聯,這也是為什麼由Sora所生成的影片會如此絲滑柔順的主要原因。Sora借助大量的訓練數據將文字轉換為影片,這些數據基本上是帶有描述性標題的大量影片。在從用戶那裡接收到提示後,Sora 使用對自然語言的深入理解來產製它。

影片生成多元化支援

除了透過文字提示來進行影片生成外,Sora 還可以從圖像和其他既有的影片來生成。該模型可以將靜止圖像的內容動畫化,製作成短片。此外,Sora 亦可針對既有影片向前/向後進行時間序內容延展,這意味著它將可以在主影片中添加新場景,且延展的部分與主影片正確匹配。更甚者,Sora 還可以做到將兩個具有不同主題的輸入影片,搭配平滑的運鏡轉場技巧無違和地組合成一個新影片。Sora將可以幫助電影製作快速生成場景、特效和動畫,從而加速製作過程。

同時,AI生成的影片可以啟發電影製作人和導演的創意,為他們提供新的靈感和想法,提供不同面向的創作靈感擴展,幫助製作人探索不同的視覺風格和故事情節。而就視覺特效來說,AI技術可以生成過往無法實現或過於昂貴的視覺效果和特效,這將使電影製作能夠創造出更加驚人和引人入勝的視覺效果,提升電影內容的品質。

當影片生成不僅是影片生成

不論是文本、圖片、聲音或是影片生成,其技術的核心還是在於「理解」。Sora除了理解用戶提示外,模型還進一步嘗試理解到影片中每個物體需如何存在並與物理世界互動(如:光線的反射、水面上的漣漪變化等),也就是本文一開始提到的技術挑戰:「物理變化合理性」,唯有理解真實世界的物理互動,才能將影片便得更加「逼真」。一打開Sora的技術說明文件,「Video generation models as world simulators」諾大的標題便顯示在開頭,其意味著開發團隊想做的不單只是影片生成這麼簡單。

如同Sora官網上所提到:「我們正在教導AI理解和模擬運動中的世界,目標是訓練模型來幫助人們解決需要與現實世界互動的問題」。儘管在Sora推出不久後,圖靈獎得主- Yann LeCun便表示Sora所理解的並不是真正的物理世界,認為其技術發展將無法準確地預測到下一秒的變化。但毫無疑問地,Sora正朝著模擬物理世界的道路邁進。倘若未來的技術發展真的可以作到模擬各種物理、生物和社會系統的行為和互動,這將有助於更好地理解世界的運作方式,甚至是預測未來的趨勢和事件。

封面圖片來源:https://openai.com/research/video-generation-models-as-world-simulators

參考資料來源:

1.視覺資料轉換示意圖:https://openai.com/research/video-generation-models-as-world-simulators

2. https://openai.com/sora

延伸閱讀