AIGC熱潮下的大語言模型訓練與部署挑戰



隨著AI生成內容(AI Generated Content )的出現,大型語言模型(Large Language Model)成為AI生成內容的核心技術之一。例如GPT-3、LaMDA和BLOOM都是基於Transformer模型進行預訓練的大型語言模型,它們可以生成各種形式的自然語言內容,包括文章、對話等。因此AI生成內容正在成為許多行業的趨勢,例如自動化寫作、自動化客服等。然而,隨著大型語言模型的發展,AI訓練的運算量不斷增長,而記憶體容量卻跟不上這個趨勢。這是一個巨大的挑戰,因為大型語言模型需要龐大的記憶體容量來存儲模型參數和中間計算結果。如下圖所示,Transformer模型中的參數數量呈現出2年240倍超指數增長(紅色),而單個GPU記憶體容量只以每2年2倍的速度增長(綠色)。 預估未來AI所需的運算能力和記憶體之間的差距越來越大,在訓練和部署更大模型的技術上將遇到更多挑戰。

AI運算參數量和加速器記憶體容量成長比較

圖1:AI運算參數量和加速器記憶體容量成長比較

資料來源:AI and Memory Wall

 【技術應用現況】

全台第一個利用BLOOM建立大語言模型(參數量達1,760億個)的AI團隊,台灣智慧雲端服務公司(華碩電腦子公司,簡稱台智雲)總工程師趙逢毅表示,要啟動大語言模型需要掌握多項關鍵技術。

  • 必須熟悉大型模型訓練技術:要具備分散式訓練技術的知識和相關套件設定能力,並且瞭解如何建立相應的訓練環境。由於大型語言模型的參數數量非常龐大,加上需要處理大量的訓練資料,因此傳統的單機訓練環境已經無法滿足需求,必須使用分散式訓練技術來應對。
  • 要提供大算力資源:隨著模型複雜度的提高,模型的FLOPs數量也隨之攀升,因此需要對應的大算力資源來支持模型的訓練和推論。此外,高效率的儲存系統也是必要的,例如GPFS,以確保模型的參數和訓練資料可以高效率地存取和傳輸,提升整體的訓練和推論效能。
  • 使用Fine-tuning相關技術:透過 In-Context Learning 的方式來訓練大語言基礎模型,可以不必再單獨訓練下游任務,而是直接利用已經訓練好的模型來進行微調,從而提高模型對不同任務的理解能力。同時,這種方法還能夠減少模型參數的儲存,從而降低了存儲和運算的成本,並且提升了整體效率。
  • 必須熟悉大型模型推論技術:為了實現低延遲的推論要求,需要了解如何構建支援多GPU推論的推論架構。此外,需要學習GPU Kernel融合技術,這有助於支援多種維度的融合技術,如水平、垂直和記憶體融合,以提高推論的效率和性能。

台大資工系主任洪士灝在臉書上表示,若台灣希望發展自主訓練大型AI模型的能力,並在國際上扮演重要的角色,就需要集思廣益,商討如何善用現有的技術和人才,並投入和配置關鍵的資源。隨著大型AI模型的訓練與部署技術持續發展,未來將有助於推動AI生成內容的發展,並為各個產業帶來更多的創新和價值。

 

參考來源:

  1. 封面圖資料來源:https://lifearchitect.ai/models/
  2. AI and Memory Wall:https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8
  3. 搭ChatGPT風潮 台智雲談大語言模型訓練挑戰:https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?id=0000656646_55G52E0I5AVIH651MLUAI
  4. AIHPC x Large Language Model -BLOOM 176B 大語言模型成果展示!:https://tws.twcc.ai/2023/01/18/llm/
  5. 洪士灝Facebook:https://www.facebook.com/shihhaohung/posts/pfbid02koZSw1goMdeZZLZmXjJUvkTgQ32QDioLF4s7yiyMs8qpjJzNH2oeH7KkibKykTm2l?locale=zh_TW

 

 

延伸閱讀