中國大陸生成式AI新應用案例探討─抖音、阿里巴巴

自從百度的ChatGPT替代方案「文心一言」問世之後,中國本土網路巨頭開始紛紛投入生成式人工智慧(Generative AI)研究領域。結合長年累積的大數據、廣大的國內外實證場域、以及雄厚的AI軟硬體紅色供應鏈作為支柱,發展出各式各樣的生成式AI技術和服務,來證明中國在生成式AI技術先進程度上,依舊有不小的影響力,並持續向世界各地成長與擴散,成為一股不可忽視的力量。
【案例服務說明】
抖音(TikTok)為具有全球影響力的中國社交網路巨頭之一,藉由短影音的病毒式擴散風靡全球;抖音的技術團隊發布了論文「MagicVideo-V2:多階高美學影片生成」,從早期的文字轉語音(Text-to-speech)加以進化,包含如下四道流程,即可更迅速、更簡單的生成影片:
- 文字轉圖片(T2I):常見的Prompt關鍵字生成圖片方式
- 圖片轉影片(I2V):產生影片開頭和結尾的兩張圖片,並預留中間的補充影格
- 影片轉影片(V2V):從外部資料的原始A片段,依需求擷取、重繪為所需的B片段,再插入影片並加以合成
- 影格自動補充(Interpolation):讓前後影格之間動作變得更為順暢
圖1: 抖音MagicVideo-V2運作機制和流程圖
資料來源:Wang, et al., 2024
另外,中國網路巨頭之一阿里巴巴,其技術團隊也自行開發了AI生成式模型「EMO(Emote Portrait Alive,動態臉孔描繪)」,可以在靜態圖片的人像繪製開口的動畫,並結合語音合成技術,來實現「動態對嘴」的效果。
阿里巴巴團隊先用嘴型跟聲紋對比、加以匹配,並將嘴型輪廓與原始圖片合成重繪,再驅動聲紋讓角色「開口說」。值得一提的是,阿里巴巴團隊也考量真人講話和唱歌會擺頭的情境,並結合嘴型和聲紋進一步合成,讓產生出來的圖片更像真人歌唱的自然、韻律般的搖擺。
圖2:阿里巴巴EMO運作機制和概念圖
資料來源:Tian, Wang, Zhang, & Bo, 2024
【應用效益與成果】
抖音、阿里巴巴兩支來自中國大陸網路巨頭的研究團隊,在推出ArXiv預覽本論文後,除了讓更多人了解生成式AI未被發掘的新潛能以外,也帶來一部分的隱憂,擔心AI生成影音會開始進入「有影片沒真相」的狀況。
雖然研究團隊能藉由論文來描述運作方式、實際驗證流程外,但這些應用成果仍處於理論獲驗證、而尚未全面實用化的階段,應加強生成過程和生成結果的鑑別度和透明度,才能在日後商業化階段,以AI生成圖文對使用者帶來正面助益。
【FIND觀點】
有鑑於中國政府牢牢掌控網路巨頭在生成式AI的研發方針和方法,並將生成式AI給「武器化」,使得世界各國開始對中國大陸生成式AI應用產生防備意識;除了設法減少機敏資訊外流給中國網路巨頭,當作其生成式AI訓練素材外,也設法針對從中國流出的AI圖文影音,加強分析和辨識能力。
中國大陸的AI生成式服務,雖然是需要提防的對手,卻因為中國身為AI先進國之一,也是值得額外研究探討的對象,從對手的思路中反映到我們在技術力、辨識力等不足的部分,予以重點補強,來增進對生成式AI安全、合理使用的認知。
封面圖片來源: 123RF
參考資料來源:
- Gandharv, K., & Dey, V. (2024, January 12). ByteDance’s MagicVideo-V2 Outperforms Top AI Models in Text-to-Video Capabilities. Retrieved from Metaverse Post: https://mpost.io/bytedances-magicvideo-v2-outperforms-top-ai-models-in-text-to-video-capabilities
- Nuñez, M. (2024, February 28). Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos. Retrieved from VentureBeat: https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/
- Pearl, M. (2024, February 29). Alibaba's AI video generator just dunked on Sora by making the Sora lady sing. Retrieved from Mashable: https://mashable.com/article/alibaba-emo-ai-facial-animation
- Rees, A. (2024, January 12). TikTok owner ByteDance launches text-to-video AI, MagicVideo-V2. Retrieved from ReadWrite: https://readwrite.com/tiktok-owner-bytedance-launches-magicvideo-v2/
- Tian, L., Wang, Q., Zhang, B., & Bo, L. (2024, February 27). EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions. Retrieved from GitHub: https://humanaigc.github.io/emote-portrait-alive/
- Wang, W., Liu, J., Yan, J., Chen, S., Low, C., Hoang, T., . . . Feng, J. (2024, January 9). MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation. Retrieved from GitHub: https://magicvideov2.github.io
李啟榮
2024-05-13
