Google推出AI音樂成器MusicLM,打造音樂版的ChatGPT


繼ChatGPT、Bing ChatGPT等AI聊天機器人掀起熱潮後,Google宣布推出AI音樂成器MusicLM的技術,透過28萬小時音樂段落組成的訓練資料庫MusicCaps進行音樂生成,打造音樂版的ChatGPT,未來有機會成為音樂工作者的最佳助手。
 
【服務流程說明】
 MusicLM是個透過文本指令進行音樂生成的模型,藉由文本內容的判斷進行層次化之「序列到序列」的音樂生成建模任務,其生成的音樂頻率為 24kHz,同一段落的生成在特定分鐘內將保持一致的頻率。其優勢在於背後採用Google的AudioML工具,且透過累積過往長期收集、長度高達28萬小時的音樂資料庫MusicCaps持續進行模型的訓練,讓使用者只要提供文字、聲音、圖像等文本指令,就能獲得多段具連貫性的音樂內容。以下將介紹MusicLM的使用方式:
  1. 文字詞彙敘述型:透過明確的文字詞彙進行音樂的生成
https://www.find.org.tw/attachment/wind_content/a27f6f4f3ad79135a183221c9b84a971_ac92247265aeaafefae3f0資料來源:GOOGLE MusicLM
圖一、文字詞彙敘述型
 
  1. 長音樂生成型:指定一種類型的音樂進行較長段落的生成
https://www.find.org.tw/attachment/wind_content/97dae75a203f40db6fe765ee4cfa4336_ac92247265aeaafefae3f0資料來源:GOOGLE MusicLM
圖二、長音樂生成型
 
  1. 故事組合生成型:透過多段落的文字敘述進行音樂的組合,像故事般的生成 https://www.find.org.tw/attachment/wind_content/5f054d3fa6a2dcff764bb89d4eeb73b5_ac92247265aeaafefae3f0
資料來源:GOOGLE MusicLM
圖三、故事組合生成型
 
  1. 編曲生成矩陣型:同一個音樂段落,以文字矩陣的方式呈現不同的編曲與節奏組合
https://www.find.org.tw/attachment/wind_content/eed57dad7dd5a8587c5724efb69db42e_ac92247265aeaafefae3f0資料來源:GOOGLE MusicLM
圖四、編曲生成矩陣型
 
  1. 圖像生成型:提供圖像以及描述圖像的文字敘述,藉此生成概念相似的音樂
https://www.find.org.tw/attachment/wind_content/cc9475a7df0d6e708d02813159f05934_ac92247265aeaafefae3f0
資料來源:GOOGLE MusicLM
圖五、圖像生成型
 
  1. 10秒短音樂型:透過文字敘述(如樂器、音樂程度、場域、年代、樂器SOLO等)指定生成10秒音樂
https://www.find.org.tw/attachment/wind_content/9a08e46310dcc0b5cc746857ec1e4a71_ac92247265aeaafefae3f0資料來源:GOOGLE MusicLM
圖六、10秒短音樂型(以指定樂器為例)
 
  1. 接續生成型:透過既有的片段生成與其概念、節奏、類型等相似的音樂段落
https://www.find.org.tw/attachment/wind_content/f6d314a1bb36e274033c8e485132072b_ac92247265aeaafefae3f0資料來源:GOOGLE MusicLM
圖七、接續生成型
 
【應用效益評析】
 MusicLM的技術猶如音樂版的ChatGPT,不論是在單曲的創作、編曲或者影視的配樂上,皆能讓音樂工作者更有效率的獲得想要蒐集或參考的資料,降低音樂工作者多方嘗試的時間與金錢之成本。
 
然而,由於目前的模型機制仍在訓練中,加上涉及到「創作」過程以及音樂生成後的版權相關議題,目前Google僅將MusicLM定調為技術展示,短期內尚無開放使用之計畫。現階段對於音樂產業來說此應用不見得受歡迎,但未來在編曲或配樂等後製階段的輔助是有極大的效益空間存在,值得後續持續觀察。

參考來源:

延伸閱讀