資策會數位轉型研究院─FIND中心

面對人口老化與醫療人力短缺的挑戰，如何提升診斷效率與減少誤診，成為全球衛生體系的關鍵議題。醫師在臨床判斷上即便擁有豐富經驗，仍常受限於龐雜的醫學知識與有限的推理時間，導致診斷正確率偏低。根據《新英格蘭醫學期刊》（NEJM）案例研究，專業臨床醫師對複雜病例的平均診斷正確率僅約20%，凸顯問題十分嚴峻。

為突破這一瓶頸，微軟於2025年推出MAI‑DxO（Medical AI Diagnostic Orchestrator，醫療AI診斷協調器），以協調多個大型語言模型打造虛擬醫療團隊，模擬臨床醫師的會診推理過程，實現動態問診、資料補充、自我審查等功能。MAI‑DxO 不僅提升推理透明度，也有助於精準決策與醫療成本控管，為未來智慧醫療提供嶄新解方。

【技術介紹】

圖1：MAI‑DxO將任何語言模型變成一個虛擬的臨床醫生小組：它可以詢問後續問題、安排測試或提供診斷，然後運行成本檢查並驗證其自身的推理，然後再決定是否繼續。
資料來源：The Path to Medical Superintelligence | Microsoft AI

與傳統單一AI模型不同，MAI‑DxO採用「協調器」架構，整合多個大型語言模型（如OpenAI GPT-4o、Anthropic Claude、Google Gemini、Meta Llama及xAI Grok），打造虛擬醫療團隊，模擬臨床醫師的會診與推理過程。其診斷流程緊貼臨床實務：從症狀蒐集、問診與資料補充，到建議檢查項目、詮釋結果與差異診斷，最終提出診斷結論。整體過程中，AI能主動提問、控制檢查成本，並透過多模型交互審查推論步驟，強化決策的透明度與安全性。

舉例來說，一名病患症狀模糊，診斷方向不明，MAI‑DxO依序詢問旅遊史、職業暴露與家族病史，最終發現罕見感染並完成診斷。過去這類情況往往需仰賴多次專家討論，甚至延誤治療。有了AI協同推理，診斷流程更迅速且關鍵資訊不易被忽略。

在「Sequential Diagnosis Benchmark」中，MAI‑DxO對304例《新英格蘭醫學期刊》（NEJM）收錄的複雜病例進行測試。這些案例皆具多步驟推理與資訊不全等挑戰，模擬臨床實境。測試結果顯示，MAI‑DxO診斷正確率高達85.5%，遠高於21位資深臨床醫師平均20%的表現。該平台亦能依預算彈性調整檢查項目，平均檢驗成本較人類醫師低20%，展現出優於傳統AI模型的準確性與經濟效益。

【應用議題與挑戰】

儘管MAI‑DxO展現驚人潛力，專家也普遍強調其現階段屬於實驗性質，尚未取得臨床上廣泛認證，亦未取得正式醫療器材核准，實際應用必須通過更嚴格的安全與監管檢驗。此外，AI在診斷上的解釋性、透明度、醫病信任及資料隱私皆為重要議題。微軟強調MAI‑DxO可提供完整推理流程記錄，但業界仍呼籲落實審查機制、避免黑箱決策。

值得注意的是，人類醫師在真實臨床場域往往可尋求同儕討論、查詢文獻、與患者面對面溝通，測試場景下AI與醫師均被設置在有限參考資訊條件下，有些專家認為目前AI診斷成績在日常醫療流程究竟能否複製，仍待大規模真實世界驗證。而且，AI工具若被不當依賴或過度信賴，可能引發責任歸屬混亂或職業消費疑慮，甚至加劇健康資料安全風險。

【結語】

醫療AI的進展正快速重塑診斷方式，但真正落地仍仰賴制度、倫理與專業的共同調和。MAI‑DxO所展現的潛能，預示著智慧診斷將可能成為臨床助手，而非替代醫師的角色。未來的關鍵將在於建立可信賴的審查機制、明確的責任界線，以及保障病患隱私與知情權，讓科技創新能在安全與信任中茁壯。AI與人類醫療專業的協作關係，才是邁向高品質健康照護的核心。

封面圖片來源：本文作者以AI生成

參考資料來源：

醫師不是被取代，而是開始與AI虛擬醫團隊並肩作戰

醫師不是被取代，而是開始與AI虛擬醫團隊並肩作戰