資策會數位轉型研究院─FIND中心

Meta Realiy Labs在2024年8月發布了Sapiens模型，該模型專注於人類視覺的相關任務，也就是透過電腦模擬或輔助人類的眼睛和大腦，處理與視覺資訊相關的能力。Sapiens模型首次在arXiv（預先期刊電子平台）發布，隨之在ECCV 2024（European Conference on Computer Vision，歐洲電腦視覺協會）上有了進一步的介紹展示。其中Sapiens模型具有四大功能，包含「2D肢體預測」、「人體部位區分」、「深度判斷」、「表面法向量估算」等，用於輔助人類視覺應用於不同的場景。

圖1 Sapiens - 四個主要的人類視覺任務

資料來源：https://www.rdworldonline.com/metas-sapiens-vision-models-bring-3d-analysis-of-humans-to-the-wild/

【模型特點與技術突破】

Sapiens模型的核心技術在於應用了大規模的預先訓練策略，為確保該模型可以準確判斷不同複雜場景下的辨識，挑選了３億張擁有不同人體特徵、場景與姿勢的影像，形成了一個龐大的資料庫來作為預先訓練的素材。

在Sapiens模型的設計上，支援了高解析的影像處理，且支援1024 x 1024像素。超出了其他傳統的視覺模型較低解析度的限制，而Sapiens擁有高解析度的模型在面對肢體預測及人體部位區分上，可以捕捉到更多的細節。

值得一提，Sapiens模型在預先訓練階段還應用了遮蔽自動編碼器（MAE，Masked Autoencoders）。其原理就是透過程式隨機產生雜訊來遮蔽原有影像，讓模型可以根據不同的遮蔽率來還原原始影像，是一種電腦視覺的自監督學習技術（Self-Supervised Learning for Computer Vision），這種學習技術已在多個指標測試上得到優異表現。

圖2 MAE - 遮蔽自動編碼器

資料來源：https://arxiv.org/abs/2408.12569

Sapiens模型針對四個主要功能，說明如下：

1.2D肢體預測：可透過影像中精準定位人體的關鍵點（Key point），如手肘、手指、面部五官等。其模型最高能捕捉辨識到308個人體關鍵點。相較於傳統面部關鍵點辨識，Sapiens模型由68個關鍵點，提升至243個關鍵點。其中與傳統上的差異，進步了7.1AP（Average Precision）。

圖3 使用308個關鍵點來進行姿勢評估

資料來源：https://arxiv.org/abs/2408.12569

2.人體部位區分：Sapiens模型透過預先訓練以及導入高達28個不同類別的人體部位詞彙，分類人體影像中的最小像素，決定每一個像素屬於哪一個人體部位的分類，並給予對應的詞彙標籤。由於Sapiens已具備預先訓練的學習，進而了解人體各部位的形狀，因此模型就可以將各肢體部位，給予一種特定顏色來做出區別。在人體部分區分的精準度上，相較於其他模型提升了17.1 mloU（mean Intersection over Union）。

單人與多人影像上的 28 個身體分類圖4 單人&多人影像上的 28 個身體分類

資料來源：https://arxiv.org/abs/2408.12569

3.深度判斷：該任務採取與【人體部位區分】類似的作法，設計了一個「Decode（編碼器） – Encode（解碼器）」，編碼器提取圖片中的關鍵資訊（圖片中的最小像素）；解碼器則將關鍵資訊的每一像素單位轉化成代表深度的數值。以單張圖片的深度判斷測試，深度估算的精準度相較於其他模型減少22.4%的誤差。在深度預測上，Sapiens-1B v.s.. Depthanything-L

圖5 在深度預測上，Sapiens-1B Vs. Depthanything-L

資料來源：https://arxiv.org/abs/2408.12569

4.表面法向量估算：Sapiens模型透過3億張的真實人體影像進行自我監督的預先訓練，模型會預測2D影像中的人體，呈現於3D空間內，就是透過表面法向量來估算，主要是將身體表面作為某一定點，進而形成各垂直面/曲面的3D模型。

Sapiens模型生成表面法向量估算的成像，應用在光線與人體表面的交互作用上，有助於創作更逼真的光線反射效果。

曲面的表面法向量分布

圖6 曲面的表面法向量分布

資料來源：https://learnopencv.com/sapiens-human-vision-models/#aioseo-4-surface-normal-estimation

PIFuHD Vs. ECON v.s. Sapiens-1B , 在表面法線預測的比較圖7 PIFuHD Vs. ECON Vs. Sapiens-1B , 在表面法線預測的比較

資料來源：https://arxiv.org/abs/2408.12569

【未來應用分析】

Sapiens模型目前所具備的的出色性能，為醫療、文化、遊戲產業等多方領域帶來了新的機會。首先，在擴增實境（AR）和虛擬實境（VR）的應用中，Sapiens模型在需要高精準度的2D肢體預測和深度判斷能提升虛擬人物的沉浸感和互動性。在電影和遊戲製作方面，精確的人體部分區分和表面法向量估算有助於創造出更逼真的虛擬人物及和特效。

Sapiens Model 透過以人的視角來進行預訓練，可實現廣泛的應用圖8 Sapiens Model 透過以人的視角來進行預訓練，可實現廣泛的應用

資料來源：https://arxiv.org/abs/2408.12569

Sapiens模型是針對人體的影像進行優化，醫療領域也能從中受益，其技術可以應用到醫療影像分析，幫助醫生更準確診斷骨骼和肌肉相關疾病。在復健醫學與運動科技的應用上，導入Sapiens模型的姿勢評估能力，也可以提供即時的體態糾正和建議。

然而，Sapiens模型的高精準分析能力是透過大量的數據進行訓練而來，這可能涉及了個人的數據收集和使用，縱使已經去識別化也存在可以被再識別的風險，伴隨而來的隱私和倫理問題，需要謹慎規範。同時，模型的運算資源需求較高，可能導致資源有限的領域在應用開發上的侷限，影響創新應用服務的落地速度。

Sapiens模型為AI在人類視覺任務領域的研究和應用帶來新的進展與可能性。通過不斷優化和創新，我們期待這些模型在未來能持續推動科技的進步，為社會帶來積極的影響。隨著技術的不斷更新迭代，相信Sapiens模型將在各方領域展現其價值，使人工智慧的應用更加廣泛。

封面圖片來源：Meta’s Sapiens: The AI That Sees Humans Like Never Before （Forget X-Ray Vision）

參考資料來源：

1. https://arxiv.org/abs/2408.12569

2. https://www.rdworldonline.com/metas-sapiens-vision-models-bring-3d-analysis-of-humans-to-the-wild/

3. https://learnopencv.com/sapiens-human-vision-models/#aioseo-4-surface-normal-estimation/

4. https://medium.com/@cognidownunder/metas-sapiens-the-ai-that-sees-humans-like-never-before-forget-x-ray-vision-fbfa0bd55f46

Meta Sapiens模型，解鎖人類視覺的未來

Meta Sapiens模型，解鎖人類視覺的未來