整合AI辨識模組,整合深度學習多項AI應用並適用於瀏覽器之AI 操控介面

作者: 張閎翰 發佈時間:2021-02-26
產業分類: 數位媒體,電子商務,生活服務,人工智慧,機器人,交通運輸,智慧製造
文章分類: 產業動態,轉型成果
文章標籤: #AI辨識模組#AI 操控介面
瀏覽人數:153

整合深度學習多項AI應用

Google去年八月於MediaPipe整合新的Pipeline(稱為MediaPipe Holistic),其中包含人體、手部與面部等各式獨立模型,並針對各模型進行了優化。MediaPipe Holistic提供統一的拓撲結構,讓用戶能夠在桌面甚至行動端上使用。在人體姿態部分,MediaPipe Holistic採用BlazePose作為手勢檢測器,進而推算雙手與人臉的感興趣區域(ROI)。

圖、骨架估測流程 https://google.github.io/mediapipe/

資料來源:https://google.github.io/mediapipe/ 

圖、骨架估測流程

在準確率表現上,由於姿態模型的輸入影格分辨率較低,使得擷取的面部和手部的ROI在精準度上不盡理想,從而需要透過輕量級之模型與較低解析之輸入來提升模型識別之運行效能。針對此狀況,研究人員使用了輕量級的臉和手進行圖像之重新裁剪與模型訓練,優化後之時間成本僅為相應模型推理時間的10%。

在效能表現上,每幀中MediaPipe Holistic包含數個模型 (姿態檢測器、姿態標誌模型、重新裁剪模型、手部和臉部關節點模型)。由於流水線的複雜性,這些算法在大多數設備上都需花費大量時間,研究人員為了提升效能,除了優化機器學習模型,還優化了前處理等影像處理算法(如仿射變換)。 

圖、手部骨架估測與面部偵測https://google.github.io/mediapipe/

資料來源:https://google.github.io/mediapipe/

圖、手部骨架估測與面部偵測 

適用於瀏覽器之AI 操控介面

為了演示MediaPipe的整體性能和質量,Google內置一個能夠在瀏覽器本地端直接運行之非接觸控制之互動控制介面,該介面允許用戶使用手勢與屏幕上的虛擬面板進行交互操控,並在虛擬鍵盤上輸入字元。此外,並支持非接觸式交互控制行為。用戶可以在4米以內的遠程控制範圍內,坐在椅子上時,再透過精準之手勢識別來操控虛擬鍵盤,然後將手勢識別映射到固定在用戶上方的“軌跡板”空間上。

非接觸式互動控制介面 https://google.github.io/mediapipe/

資料來源:https://google.github.io/mediapipe/

圖、非接觸式互動控制介面 

  • MediaPipe Holistic使用PythonJavaScript的現成解決方案,以加快Web開發人員的採用,亦可在移動設備(Android,iOS)和臺式設備上使用。相較於頭戴式VR虛擬實境技術,需搭配VR眼鏡與操控手把,結合AR與AI特效功能的行動端應用,將為行動電商業者帶來新的行銷模式。
  • Google認為,集結各項AI應用之操控介面,將提升新的應用程序之友善操控能力,例如手勢操控介面、全身增強現實和手語辨識。

參考來源:

1.MediaPipe Holistic — Simultaneous Face, Hand and Pose Prediction, on Device, Google AI Blog

https://ai.googleblog.com/2020/12/mediapipe-holistic-simultaneous-face.html

2.Google釋出MediaPipe裝置上即時姿勢追蹤功能BlazePose, iThome

https://www.ithome.com.tw/news/139417

3.MediaPipe Holistic谷歌發布面部,手部與姿勢同時檢測模型

https://ppfocus.com/0/di617fb37.html