Vtuber關鍵技術剖析



虛擬實況主(Vtuber)透過虛擬角色及動作捕捉技術協助,不須露臉就可當直播主,在2023年全球Super chat贊助排行榜中,Vtuber就佔據前10名中的4位。本篇分析分為角色建模、動作捕捉與製播軟體三個方面說明要成為虛擬直播主(Vtuber)所需的技術與演進。

 【技術發展背景】

現今網路與科技的進步,人人皆可直播拍片做自媒體當網紅,但其中有非常特別的一類主播存在,稱為「虛擬實況主」或可以叫做「Vtuber」(也就是Virtual YouTuber)。雖然一樣是直播拍影片,但他們不以自己原本的外貌入鏡,而是以事先製作的虛擬角色的外表也稱為「V皮」,並利用動作捕捉技術將表演者的動作重現在虛擬角色身上,有些還會搭配變聲等效果,可以自由轉變男女聲,通常我們稱扮演虛擬角色的演員為「中之人」。

透過這些技術的支持,讓有想要表演但又不想拋頭露面的人可以放心展現自己,另外,也可藉多變的外觀擴展收看的觀眾群。直播的內容主要是電玩直播或是聊天居多,但國外也曾經有辦過綜藝跟外景節目。但可千萬別小看這種類型的虛擬主播,根據2023年Youtuber全球Super chat贊助的統計,排行榜前10名中Vtuber就佔了4名之多,相較於動畫文化接受度更高的日本更是佔了8位,其主要的差別在於日本有企業化經營的關係。

【技術介紹與應用現況】

Vtuber最重要的是角色設計建模,模型可以是2D或是3D,但因為看習慣了日本動漫CG風格,喜歡2D模型的人數量其實非常多,主要使用的技術是Live2D,特色是將2D角色幾乎保持原畫的劃風與外觀建模,並利用圖層的方式製作2.5D的動作效果,例如將2D繪製的頭髮分圖層並個別移動圖層做出頭髮飄動的效果。因為受限於無法旋轉人物的角度,其實可以做的動作並不會太多,基本上會是簡單的動作搭配表情變化為主,但最大優點是可以維持原來CG畫風與相對較低的成本,目前廣泛的用於日系的vtuber的商業製作。

Live2D利用圖層概念製作2.5D的動作效果

圖1. Live2D利用圖層概念製作2.5D的動作效果

圖片來源:Live2D教學官網

3D角色的部分則是以VRM格式的模型最為通用,不僅有免費的製作軟體"VRoid Studio",也有大家製作好拿來販賣或可免費下載的線上商城 "Vroid Hub"。HTC VIVERSE 也宣布與VRoid Studio開發母公司pixiv 合作,完整支援VRM格式的虛擬人。而使用3D模型製作的角色就可以做出變化比較大的動作,跳舞轉身都可以,但是要注意過於寬鬆的服裝與過長的頭髮很容易在角色揮舞雙手的動作中發生相互穿透的的不自然情況。

VRoid Studio製作3D人偶

圖2. VRoid Studio製作3D人偶

圖片來源:VRoid Studio

設計出美美的角色後,另外就需要解決動作捕捉的問題,過去動補技術不是很貴、就是要熟悉3D遊戲引擎軟體以及動補套件,例如Unity搭配VSeeFace套件可做到偵測半身與簡單的臉部表情動補,要完整做到全身、手指、表情甚至是可精準依照發音判定的嘴型,動補的技術門檻很高。但也拜技術進步所賜,如果只是談話或是遊戲直播的半身動補,現在最低需求幾乎只需要一台手機搭配一套虛擬直播App即可,例如REALITY或是Animaze by FaceRig。

但依靠攝影機影像判斷的動作捕捉技術目前仍然非常高的計算需求,常導致手機設備會有過熱、用電過快的問題,另外由於攝影機是2D取像沒有深度的資訊,當身體的畫面有被遮蔽的情況時會誤判導致虛擬人物抖動或是誤判的問題,例如側身的時候會有一支手臂攝影機看不到,這時就只能靠軟體的方式去推測一個最合理的動作。

因此要精準取得全身骨架姿態,還是需要借助多個感測器硬體製作的動補設備,過去這種類型的設備非常昂貴,除了需要穿上動補衣外,連場地都有嚴格的規範並需要另外安裝外部感測器,非常不容易普及與使用。為了解決這個問題,SONY在2023年針對Vtuber的需求開發出只需數千元的簡易動補產品"Mocopi",只需綁六個感測器在身上,再搭配手機與App就能做到全身的動作捕捉,算是補足了這塊市場需求,不需要去購買動輒數十萬元高價的動補設備。

SONY Mocopi動作捕捉感測器

圖3. SONY Mocopi動作捕捉感測器

圖片來源:SONY Mocopi

接下來介紹幾個適合Vtuber虛擬人直播的虛擬攝影棚軟體,大部分也都內建攝影機動作捕捉功能:

1.Warudo

Warudo是由open source動補軟體技術出發,進而整合多種功能成為付費的Vtuber虛擬攝影棚軟體,可建立虛擬3D場景並透過動補技術扮演操作虛擬人偶,Warudo軟體可在Steam遊戲平台上面免費下載,個人使用免費。

Warudo軟體下載頁面

圖4. Warudo軟體下載頁面

圖片來源:Steam

 Warudo的產品特色及限制如下:

(1)由於原始的技術核心是動作捕捉,動補軟硬體設備支援度大概是看過最完整的。

(2)攝影棚與攝影機功能相對比較少,需要配類OBS等的直播軟體使用。

(3)可透過商城購買素材來擴充場景。

(4)沒有去背影像輸出功能,無法做出跟真人同框或是多個虛擬人偶共同演出。

(5)有low-code視覺化的程式開發互動功能,例如比出指定動作會觸發背景發煙火等特效,讓場景可以更活潑而非只有背景而已,熟練的話可以做出很多變化。

 2.Camverse Studio

國內廠商使用Unreal技術開發的虛擬人製播軟體。

Camverse Studio軟體操作畫面

圖5. Camverse Studio軟體操作畫面

圖片來源:zukunftworks

 Camverse Studio的產品特色如下:

(1)畫面簡潔容易使用,預設場景多元。

(2)可用於新聞播報等專業場景。

(3)支援NDI影像輸出,可以方便與其他影像控台軟體(例如OBS)結合做出虛擬人與真人畫面同框演出。

(4)提供專用App讓手機變身為攝影機,並支援free-D攝影機協定,可以非常直覺透過移動手機調整鏡頭取景角度與距離的運鏡操作。

3.直播情境工具

為財團法人資訊工業策進會使用Unity技術所開發的虛擬人製播軟體。

直播情境工具軟體操作畫面

圖6. 直播情境工具軟體操作畫面

圖片來源:本文作者自行拍攝

直播情境工具特色如下: 

(1)結合虛擬場景編輯功能,並可匯入VRM人偶、3D模型、圖片、影片等素材。

(2)可支援單色影像去背與NDI影像輸出,可直接製作虛擬人與真人畫面同框演出效果。

(3)支援直接使用視訊攝影機做半身動捕,也支援透過VMC動補通訊協定,接收第三方動作捕捉軟體或硬體的動補資料。

(4)可錄製動作捕捉的紀錄做成骨架動畫。

【未來展望】

軟硬體成本的降低與進步,如Mocopi這類的設備可望使動補技術更加普及。同時,虛擬攝影棚軟體的不斷創新,降低了技術使用門檻,提供Vtuber更方便的創作工具,促使虛擬直播內容多元發展。到最近,已有利用生成式AI建立虛擬主播並透過AI直接語音讀稿播報的示範展示出現,在不久的將來,將能透過生成式AI來產生角色模型。相信只要Vtuber的需求仍在,相關技術將更趨成熟,未來一定能夠實現更自然、多樣的動作表現,進一步提升觀眾體驗,擴展其在文化娛樂產業中的影響力。

 

封面圖片來源:本文作者自行拍攝製作

參考資料來源:

1.Youtube Super chat 贊助排行榜:https://playboard.co/en/youtube-ranking/most-superchatted-all-channels-in-worldwide-yearly

2.虛擬直播主荒島求生外景節目:https://www.youtube.com/watch?v=EqUKTaxHiEE

3.LIVE2D:https://www.live2d.com/en/

4.VRoid Studio:https://vroid.com/en/studio

5.HTC VIVERSE結盟日本最大插畫交流平台pixiv,串接VRoid Studio提供多元虛擬人物創作選擇:https://www.4gamers.com.tw/news/detail/54317/htc-viverse-pixiv-vroid-studio

6.Sony元宇宙入門標配來了!6顆小球mocopi,輕鬆變身VTuber:https://www.bnext.com.tw/article/73917/motion-capture-feb-23-mag

7.Mobile Motion Capture "mocopi" Developer Site:https://www.sony.net/Products/mocopi-dev/en/

8.Warudo:https://store.steampowered.com/app/2079120/Warudo/

9.Camverse:https://www.zukunftworks.com/?lang=zh

 
延伸閱讀