電子病歷合成數據生成Synthea開源軟體 有利於健康醫療創新應用

post image

「數據」(Data)被視AI時代的新石油,可見數據作為AI創新資產的重要性。但目前國內外產業、研究單位從事健康醫療相關領域創新應用開發時,或因隱私保護、資訊安全、使用授權及法律遵循等因素,往往難以取得對象民眾相關電子病歷(EHR)相關數據,幾乎不可能進行非當事人同意的醫療、研究行為的其他目的(研究、創新、模擬測試等)二次使用(secondary purposes)。在此情況下,一般常見的替代方式為轉向匿名化(Anonymized)電子病歷數據的使用,不過由於數據來源若是取自於真實病患或民眾的資料,不可避免會有被重新再識別

(re-identification)的風險與疑慮,類似用途的合法性問題,其實不利於產業創新發展。

合成數據未違反隱私權規範

另外一種逐漸興起的替代方案為利用合成數據(Synthetic Data)生成的方式。所謂合成數據(或稱合成資料),即為了保護原始資料所可能帶有的隱私或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需數據的情況下,以「模擬」方式生成研究所需之「合成數據」並進行後續研究跟利用,由於合成數據已並非原始數據,也並非去識別化後的數據,所以對於隱私並無侵犯。

所以,達到品質的合成數據本身,理論應具備趨近真實數據的使用價值,而且可能不需要真實數據的價格或取得成本。基於以上假設,合成數據發展對AI或機器學習應用未來發展息息相關,相關發展猶如發現AI時代新石油的探勘或提煉技術的新發展。

有鑑於此,非營利企業MITRE與跨國學術單位HIKER組成的聯合研究團隊發展了開源軟體Synthea方案,嘗試以開源合成電子病歷生成軟體結合開源社群創新能量克服相關問題。Synthea目標是生成模擬真實的合成電子健康紀錄(realistic synthetic EHR, RS-EHR),如模擬一般美國民眾從出生到過世的病歷資料,並開放社群加入10種美國民眾常見就醫情況、10大慢性病等模擬生成模組,以生成趨近美國醫療統計實況的數據。目前Synthea已提供一百萬筆符合國際標準健康醫療資訊交換格式(如HL7 FHIR或HL7 CDA)的合成電子病歷共享數據。

Synthea採用合成電子病歷應符合四條件

Synthea採用合成電子病歷生成的概念框架與機制,稱為PADARSER

(the Publicly Available Data Approach to the Realistic Synthetic EHR),據Jason Walonoski等研究人員發表的論文表示,此概念框架的作法,需在滿足四個條件下運作:

(1) 根據公開的健康統計數據

(2) 假設真實電子病歷(EHR)數據不可存取

(3) 遵循醫療臨床照護指引(Clinical Practice Guidelines,CPGs)

(4) 所採用的方法可以保證產生的合成電子病歷(EHR)固有的真實屬性,使其足以取代真實數據,以供需要真實電子病歷(EHR)數據情況下的二次使用(secondary uses)。

如下圖所示:

圖 1、Synthea的PADASER概念架構機制示圖

資料來源: J Am Med Inform Assoc, Volume 25, Issue 3, March 2018, Pages 230–238, https://doi.org/10.1093/jamia/ocx079

由示圖可發現,隱私保護議題是 PADARSER 的概念框架運作的關注重點,所以從彙整健康統計數據資訊(包含美國人口統計局、CDC及美國衛生研究院等的統計資訊)、臨床照護指引(CPG)和醫療編碼詞典等公開來源統計資訊經推斷後,依上而下(Top-down)的架構注入相關參照元素到生成的過程中,可模擬一般美國民眾整個生命週期(生老病死及就醫等)可能會產生的合成電子病歷紀錄。

標準化電子病歷合成數據生成 有利於創新應用

Synthea研究團隊初期有以第二類型糖尿病(T2D)合成數據生成模組對 Synthea 合成電子病歷產生器產生的數量和品質進行了初步驗證。此驗證的方法涉及使用 T2D 模組產生的合成 EHR,將統計和治療特性與公開的統計數據進行比較和比較。如下圖2所示,這些初步結果會與現實世界的統計數據存在一些差異,如與麻州平均(MA average)或美國全國平均(US average)的在2-5歲或52歲以後明顯的差異。但到目前為止, Synthea持續在開源社群中優化與驗證,隨著各界資源投入,預期未來將支援各國各式標準化電子病歷合成數據生成,並協助健康醫療產業結合AI與機器學習應用創新。

圖 2、診斷第 2 型糖尿病時的年齡圖

資料來源: J Am Med Inform Assoc, Volume 25, Issue 3, March 2018, Pages 230–238, https://doi.org/10.1093/jamia/ocx079

封面圖片來源:https://www.istockphoto.com/ 

參考資料來源:

  1. Journal of the American Medical Informatics Association, Volume 25, Issue 3, March 2018, Pages 230–238, https://doi.org/10.1093/jamia/ocx079
  2. https://synthea.mitre.org/
  3. https://stli.iii.org.tw/article-detail.aspx?no=64&tp=1&d=8532

張元駒

2024-07-09

分享: 0 瀏覽量: 318