Synthesized以合成資料協助金融機構進行人工智慧訓練


金融機構人工智慧訓練難點:資料授權議題

國際研究機構Gartner在2022年的「Data Analytics Summit」中曾預測,人工智慧模型訓練資料在2030年前將由合成資料所取代。這句話並非誇大其詞,實際上金融機構為了合規,在運用資料進行人工訓練前皆須取得使用者同意授權,往往一項訓練前期就需花上半年以上時間來處理使用者授權議題,其付出的時間與人力成本對金融機構來說可說十分沉重。這個痛點也陸續被金融科技新創所洞察,繼而提出對應解決方案。以目前而言,最有效的的替代解決方案就是採用合成資料(Synthetic Data)。本文要介紹的是來自英國的人工智慧新創Synthesized。

資料來源:本文作者繪製

圖1、Synthesized三大效益

新創解決方案特色:生成無合規疑慮的合成資料

Synthesized是由Nicolai Baldin博士在2018年所成立,公司創立宗旨即聚焦於解決人工智慧與機器學習在領域資料缺乏的議題,如金融或醫療等領域的資料,其領域本身是高度監理產業,若要取得使用者資料授權,成本相較其它領域高出許多,例如:需要花時間逐一獲取使用者授權;此外,遇到高資運算量的情況,則需將資料傳輸至雲端,以有效地進行機器學習,這又牽涉雲端合規管理議題。Synthesized的解決方案就是可以在短時間內生成大量合成資料,協助企業進行人工訓練。目前Synthesized在金融領域合成資料上已有實際商業化的應用,例如:德意志銀行(Deutsche Bank)過去在開發系統產品時,經常在測試時遇到測試資料需要取得授權之困難,即透過Synthesized協助解決。

三大特色協助金融機構進行資料相關開發

Synthesized的解決方案主要有三個特色:第一、快速生成資料:Synthesized的SaaS服務可在無須使用者同意授權下,直接產生具品質且合規的合成資料,此將大幅減少金融機構資料收集所需時間,並可提升人工智慧模型在雲端上之訓練效能。第二、縮短概念驗證週期。Synthesized的合成資料亦可協助金融機構提供測試資料給外部資訊服務供應商,供應商以此合成資料可進行測試計畫,確認新應用之功能是否符合金融機構需求,特別是在金融機構進行概念驗證(Proof of Concept, PoC)時縮短金融機構概念驗證之週期。第三、導入測試左移開發原則。測試左移(Shift Left Testing)是軟體工程上的一種安全性開發原則,意即在設計開發階段就開始進行相容性測試,如此可在產品正式發布後,降低未來潛在修正所需時間與成本。Synthesized所提供合成資料不僅能用於人工智慧模型訓練,亦可作為開發初期測試資料。

目前Synthesized以軟體開發套件(Software Development Kit, SDK)之方式,協助金融機構應用於機器學習模型訓練,特別是詐欺偵測之用途。金融機構嵌入SDK後,可在不到10分鐘的時間內產出至少500萬筆合規之合成資料,就目前導入個案中,除節省銀行資料處理所需2到4個月之處理時間外,其機器學習模型效果較未導入合成資料前,提升約4-15%。

參考來源:

參考資料來源

  1. Synthesized Solidifies Its Partnership with Deutsche Bank - Newsroom - Synthesized
  2. Gartner Data & Analytics Summit 2022 Orlando: Day 1 Highlights

 

封面圖

作者自行繪製

延伸閱讀