資策會數位轉型研究院─FIND中心

自從百度的ChatGPT替代方案「文心一言」問世之後，中國本土網路巨頭開始紛紛投入生成式人工智慧（Generative AI）研究領域。結合長年累積的大數據、廣大的國內外實證場域、以及雄厚的AI軟硬體紅色供應鏈作為支柱，發展出各式各樣的生成式AI技術和服務，來證明中國在生成式AI技術先進程度上，依舊有不小的影響力，並持續向世界各地成長與擴散，成為一股不可忽視的力量。

【案例服務說明】

抖音（TikTok）為具有全球影響力的中國社交網路巨頭之一，藉由短影音的病毒式擴散風靡全球；抖音的技術團隊發布了論文「MagicVideo-V2：多階高美學影片生成」，從早期的文字轉語音（Text-to-speech）加以進化，包含如下四道流程，即可更迅速、更簡單的生成影片：

文字轉圖片（T2I）：常見的Prompt關鍵字生成圖片方式
圖片轉影片（I2V）：產生影片開頭和結尾的兩張圖片，並預留中間的補充影格
影片轉影片（V2V）：從外部資料的原始A片段，依需求擷取、重繪為所需的B片段，再插入影片並加以合成
影格自動補充（Interpolation）：讓前後影格之間動作變得更為順暢

圖1：抖音MagicVideo-V2運作機制和流程圖

資料來源：Wang, et al., 2024

另外，中國網路巨頭之一阿里巴巴，其技術團隊也自行開發了AI生成式模型「EMO（Emote Portrait Alive，動態臉孔描繪）」，可以在靜態圖片的人像繪製開口的動畫，並結合語音合成技術，來實現「動態對嘴」的效果。

阿里巴巴團隊先用嘴型跟聲紋對比、加以匹配，並將嘴型輪廓與原始圖片合成重繪，再驅動聲紋讓角色「開口說」。值得一提的是，阿里巴巴團隊也考量真人講話和唱歌會擺頭的情境，並結合嘴型和聲紋進一步合成，讓產生出來的圖片更像真人歌唱的自然、韻律般的搖擺。

圖2：阿里巴巴EMO運作機制和概念圖

資料來源：Tian, Wang, Zhang, & Bo, 2024

【應用效益與成果】

抖音、阿里巴巴兩支來自中國大陸網路巨頭的研究團隊，在推出ArXiv預覽本論文後，除了讓更多人了解生成式AI未被發掘的新潛能以外，也帶來一部分的隱憂，擔心AI生成影音會開始進入「有影片沒真相」的狀況。

雖然研究團隊能藉由論文來描述運作方式、實際驗證流程外，但這些應用成果仍處於理論獲驗證、而尚未全面實用化的階段，應加強生成過程和生成結果的鑑別度和透明度，才能在日後商業化階段，以AI生成圖文對使用者帶來正面助益。

【FIND觀點】

有鑑於中國政府牢牢掌控網路巨頭在生成式AI的研發方針和方法，並將生成式AI給「武器化」，使得世界各國開始對中國大陸生成式AI應用產生防備意識；除了設法減少機敏資訊外流給中國網路巨頭，當作其生成式AI訓練素材外，也設法針對從中國流出的AI圖文影音，加強分析和辨識能力。

中國大陸的AI生成式服務，雖然是需要提防的對手，卻因為中國身為AI先進國之一，也是值得額外研究探討的對象，從對手的思路中反映到我們在技術力、辨識力等不足的部分，予以重點補強，來增進對生成式AI安全、合理使用的認知。

中國大陸生成式AI新應用案例探討─抖音、阿里巴巴

中國大陸生成式AI新應用案例探討─抖音、阿里巴巴