資策會數位轉型研究院─FIND中心

人口高齡化已成為全球性挑戰，而其中一項常被忽視但影響深遠的議題便是聽力損失，根據世界衛生組織（WHO）資料，目前全球有超過 15 億人（約佔全球人口的 20 %）存在某種程度的聽力損失；預估至 2050 年，將有每 10 人中就有 1 人（即超過 7 億人）出現「殘疾性聽力損失」（Disabling Hearing Loss），即聽力下降至影響日常溝通與生活功能的程度。

聽力損失會使人們在聆聽音樂時難以區分歌詞、旋律與伴奏，特別是高頻聲衰退後，音樂的明亮度與層次感明顯下降，削弱了情感表達與沉浸體驗。這不僅降低音樂的享受，也可能使人們逐漸遠離音樂創作與交流，減少音樂帶來的健康與心理福祉效益。

在此背景下，音源分離技術（Music Source Separation，MSS）的出現提供了新契機。音源分離旨在將混合音訊自動拆解為各獨立聲源，如人聲、弦樂、銅管、打擊等，讓使用者能依需求選擇性強化或抑制特定樂器聲。早期方法多依賴統計與數學模型，如非負矩陣分解（NMF）、獨立成分分析（ICA）等；近年隨著深度學習興起，基於卷積神經網路（CNN）、U-Net、Transformer 與時間頻譜注意力機制的模型大幅提升了分離準確度與實時性，並逐步應用於輔助聆聽、助聽設備與音樂互動系統中。這類技術的發展不僅能改善聽力受損者的音樂理解，也為普羅大眾提供了更細緻、個人化的音樂體驗。

相較於流行音樂，古典與交響音樂（Classical and Orchestral Music）的音源分離任務更為複雜與具挑戰性。

圖1：音樂無障礙化示意圖

資料來源：本文作者使用DALLE GenAI生成

在資料面上，公開可用的古典合奏資料集極為有限，且多數錄音無法取得乾淨的單軌聲源，使深度學習模型難以進行有監督訓練。現有的基準資料集（如 URMP、MedleyDB 等）多僅涵蓋小型二重奏或三重奏，難以反映真實交響樂團的規模與聲學特性。此外，樂器資料的分布極度不均。常見樂器（如小提琴、大提琴、小號）擁有較為充足的樣本，而不常見樂器，特別是打擊與低音域樂器的錄音資料則相對稀少。

其中，低音提琴、法國號與定音鼓等樂器在公開資料集中甚至僅包含少量樣本或片段。此種資料不平衡與樣本稀缺（Data Imbalance and Scarcity）的問題，限制了模型在多樂器場景中的泛化能力，並容易在訓練過程中造成主導樂器的偏差，使弱勢樂器的辨識與分離表現顯著受限。

在聲學層面，古典合奏錄音通常於同一空間內同時演奏，並受到舞台與音樂廳反射、混響及空間傳遞效應的影響，導致各樂器間的時間與頻率特徵高度重疊（Spectral and Spatial Overlap）。這些「空間耦合效應」使模型難以區分個別樂器能量分布，尤其在弦樂群（如小提琴、中提琴、大提琴）與木管群（如雙簧管、單簧管、長笛）之間，音色差異細微，造成嚴重混疊。

在模型層面上，多數現有音源分離系統（如 Open-Unmix、Demucs、Spleeter 等）主要針對流行音樂開發，其訓練資料與頻譜分布偏向人聲與節奏樂器，難以泛化至古典音樂中長持音（Sustained Tones）、寬動態範圍（Wide Dynamic Range）與多層次和聲結構（Multi-Layered Harmonic Structure）的特性。此外，古典音樂的瞬時動態範圍（Dynamic Range）與頻率覆蓋範圍（Frequency Coverage）更廣，要求模型在高頻與低頻段皆具一致且穩定的表現。

另一方面，現有方法多以離線（Offline）處理為主，推論過程仰賴雙向上下文與長時間訊號緩衝，無法滿足近即時性（Near Real-Time Capability）與低延遲需求（Low-Latency Requirement）。然而，若要在古典音樂場景中應用於現場表演（Live Performance）、助聽裝置（Hearing Assistance）或互動式展示（Interactive Installation）等情境，系統必須在維持音質與分離精度的同時，達成嚴格時間因果性（strict Temporal Causality）與可即時回應（Instantaneous Inference）的設計。

綜上所述，古典與交響音樂的 MSS（Music Source Separation）問題目前仍屬開放挑戰。要達成可靠且具音樂性的一致分離結果，不僅需建構具代表性的合奏資料集與多樣化的空間模擬流程，以涵蓋不同場域與編制特性；亦需設計具「音樂結構感知（Structure-Aware）」與「時頻一致性（Time-Frequency Consistency）」的深度模型架構，確保在複雜多聲部交織下仍能維持節奏、音高與動態的整體連貫性。此外，系統亦須納入時間因果性與低延遲（Low-Latency）處理設計，以利未來於助聽輔具、智慧舞台、互動展演或即時表演等應用場域中部署。

下篇本研究將進一步針對古典音樂場景提出近即時交響音樂音源分離系統（Near Real-Time Orchestral Music Source Separation System），詳細說明其模型設計理念、資料生成與延遲控制策略，並探討其在真實環境中之可行性與實驗結果。

封面圖片來源：本文作者自行拍攝

參考資料來源：

World Health Organization. （2024, March 3）. Deafness and hearing loss. World Health Organization. https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss （Accessed: November 4, 2025）
Roa-Dabike, G., Cox, T. J., Barker, J. P., Akeroyd, M. A., Bannister, S., Fazenda, B., ... & Whitmer, W. M. （2025）. Source Separation of Small Classical Ensembles: Challenges and Opportunities. arXiv preprint arXiv:2505.17823.
Araki, S., Ito, N., Haeb-Umbach, R., Wichern, G., Wang, Z. Q., & Mitsufuji, Y. （2025, April）. 30+ years of source separation research: Achievements and future challenges. In ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing （ICASSP）（pp. 1-5）. IEEE.
National Symphony Orchestra （Taiwan）. （n.d.）. Official website of the National Symphony Orchestra （NSO）. National Performing Arts Center. https://www.npac-nso.org/zh/（Accessed: November 4, 2025）
YWYG. （2025）. Symphonia — Near Real-Time Orchestral Music Source Separation [Computer software]. Hugging Face Spaces. https://huggingface.co/spaces/YWYG/symphonia （Accessed: November 4, 2025）
Wang, C. H., Wang, C. C., Wang, J. Y., Jang, J. S. R., & Chu, Y. H. （2024, October）. Improving Real-Time Music Accompaniment Separation with MMDenseNet. In 2024 27th Conference of the Oriental COCOSDA International Committee for the Co-ordination and Standardisation of Speech Databases and Assessment Techniques （O-COCOSDA）（pp. 1-6）. IEEE.
Gusó, E., Pons, J., Pascual, S., & Serrà, J. （2022, May）. On loss functions and evaluation metrics for music source separation. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing （ICASSP）（pp. 306-310）. IEEE.
Stöter, F. R., Uhlich, S., Liutkus, A., & Mitsufuji, Y. （2019）. Open-unmix-a reference implementation for music source separation. Journal of Open Source Software, 4（41）, 1667.
Défossez, A., Usunier, N., Bottou, L., & Bach, F. （2019）. Demucs: Deep extractor for music sources with extra unlabeled data remixed. arXiv preprint arXiv:1909.01174.
Hennequin, R., Khlif, A., Voituret, F., & Moussallam, M. （2020）. Spleeter: a fast and efficient music source separation tool with pre-trained models. Journal of Open Source Software, 5（50）, 2154.
Li, B., Liu, X., Dinesh, K., Duan, Z., & Sharma, G. (2018). Creating a multitrack classical music performance dataset for multimodal music analysis: Challenges, insights, and applications. IEEE Transactions on Multimedia, 21(2), 522-535.
Bittner, R. M., Salamon, J., Tierney, M., Mauch, M., Cannam, C., & Bello, J. P. (2014, October). Medleydb: A multitrack dataset for annotation-intensive mir research. In Ismir (Vol. 14, pp. 155-160).

AI 與古典音樂的交會：Symphonia 近即時音源分離技術實踐與啟示（上）

AI 與古典音樂的交會：Symphonia 近即時音源分離技術實踐與啟示（上）