合成資料是下一波未來趨勢
在2022年8月國際研究機構Gartner的「Data Analytics Summit 2022」中曾大膽預測,到2030年前,所有的AI模型訓練資料將會由合成資料所取代。這個預測如今在各方新創與技術供應商的努力之下,似乎不是遙不可及的夢想。今天要介紹的英國新創Synthesized就是一間專注於打造合成資料平臺提供企業AI與機器學習訓練用途的服務。
資料來源:本文作者繪製
圖1、合成資料三大效益
資料是AI/ML提升表現最大難點
畢業於英國劍橋大學的創辦人Nicolai Baldin博士過去一直專注於提升人工智慧(AI)與機器學習(ML)表現效能的研究,但實際上AI/ML遇到的難點是很多領域根本沒有足夠的資料可供訓練,或是如醫療、金融等領域的資料往往因為高度監理議題,取得資料本身曠日費時且成本極高,除了需取得使用者同意以外,若將資料傳輸至雲端執行機器學習訓練還有額外資料在雲端的合規管理議題。在此機緣下,他於2018年成立了Synthesized公司。
合成資料協助銀行加速創新
Synthesized在金融領域已有實際商業化的應用,主要協助德意志銀行(Deutsche Bank)改善開發新產品時遇到的障礙。主要的效益有下列三點:
一、在無須使用者同意授權下可產生具品質且合規之合成資料,減少銀行資料收集所需時間,提升機器學習模型在雲端上的訓練效能。
二、協助銀行提供外部資訊服務提供商開發新應用時的測試資料,資訊服務提供商透過合成資料確認所開發新應用是否符合需求,縮短銀行在概念驗證迭代週期。
三、協助銀行開發新應用時導入測試左移(Shift Left Testing)的安全性開發原則,在設計開發階段提早透過合成資料進行相容性測試,在產品正式發布前,超前部署測試計畫,降低產品正式發布後修正所需成本。
目前實際應用案例包含提供銀行SDK應用於偵測詐欺的機器學習模型訓練,Synthesized可在約10分鐘內產出500萬筆合規且符合銀行需求之合成資料,機器學習模型效果較未導入合成資料前,可提升4%-15%,實際上節省銀行資料處理所需2到4個月的時間。目前國際間在合成資料發展仍處於萌發階段,國內業者若遇到有領域資料受高度監理之議題,或許可思考導入合成資料之可能性。
參考資料來源
1.Gartner Data & Analytics Summit 2022 Orlando: Day 1 Highlights
2.Synthesized Solidifies Its Partnership with Deutsche Bank - Newsroom - Synthesized
封面圖
作者自行繪製