「合成數據」技術突破精準醫療發展瓶頸

隨著技術的推進，精準醫療成了近年來的熱門關鍵字。但根據勤業眾信的調查指出，產業在擁抱精準醫療時仍有3個面向的挑戰需要檢視，除了檢測後的藥物需要與各國健保給付單位配合外，如何整合跨單位的數據資料庫、並且在不侵犯個人隱私及倫理的情況下合法使用數據資料，成了精準醫療能否成功發展的重要關鍵。

即便台灣在健保體制完整的情況下有助於發展精準醫療，但為求數據的安全性及避免衍生倫理爭議，資策會自110年起啟動「經濟部科技專案-數位科技應用於產業發展」計畫，瞄準精準健康領域中資料供需雙方對於生醫資料應用待解決的需求，開發出商用智慧化工具，包括資料當事人動態授權管理的APP、資料輪廓產生工具（不儲存原始資料）、將破碎化且異質的生醫數據進行個人多維資料整合的工具、具有合規化授權管理機制的VDI雲平台等可將匿名化與資料增強的合成數據工具等。

無一對一生成關係，合成數據加速精準醫療發展

其中，「合成數據」工具作為商用智慧化工具的一種，靠的是統計學、深度學習以及自然語言處理等方式，以電腦「模擬」生成研究所需要的「合成資料」，由於與原始數據並沒有一對一的生成關係，因此沒有任一合成數據點可回溯或反推回原始數據，同時避免觸犯個資隱私之虞，匿名化的特性讓它可作為數據隱私議題的解決方案。

另一方面，數據雖是以合成方式產生，卻依舊保有精準醫療所需的可參考價值，主要是因為合成資料的分布近似於原始資料的分布，因此透過合成資料所訓練出來的分類模型（Classifier），相比原始資料所訓練出來的模型毫不遜色，即便在原始數據量較少的情況下，合成數據工具仍可以原始數據集訓練AI模型，使模型學習各種特徵、關聯和統計模式，再以該模型生成較多的合成數據點，並以合成數據點建模，再現原始數據中所具有的各種特徵、關聯和統計模式。

目前合成數據工具在國際上已用於生醫資料應用發展，且無論公私部門皆抱持較前瞻、開放態度。反觀國內無論產業或臨床，對合成數據技術仍相對陌生、資訊相對匱乏，態度亦較趨保守，因此資策會也將以北中南數家公私立區域醫院為驗證場域，增進國內對生醫資料合成數據應用性之關注與討論，進而提高握有寶貴生醫資料之醫療院所端對建立合成數據庫以增進與產業合作研發之意願，並加速研發時程，同時降低產業應用生醫資料之法規障礙與研發成本，為產業與使用者創造雙贏價值。

參考資料：https://www2.deloitte.com/tw/tc/pages/life-sciences-and-healthcare/articles/precision-medicine.html

圖片來源：https://www.istockphoto.com/

財團法人資訊工業策進會_蒐集個人資料告知事項暨個人資料提供同意書

「合成數據」技術突破精準醫療發展瓶頸

專家群介紹

王志清

吳俊達

彭賢恩

蔡政安

鄭旭高