解析ChatGPT背後運作原理



最近自然語言界的話題與 OpenAI公司發布的「ChatGPT」開源人工智慧對話機器人服務脫不了關係,這是首個已可被大眾使用,且接近自然文字對話品質的的對話機器人。微軟最近也看好其發展潛力,計畫投資100億美金於OpenAIChatGPT前景一片看好。為了進一步瞭解ChatGPT如何運作,本文將介紹其背後的技術GPT-3(Generative Pre-trained Transformer 3)GPT-3Elon Musk創辦的OpenAI202012月推出,是一種基於變換模型,搭配海量高品質的數據集,在巨量運算硬體上訓練出的一個語言模型,而ChatGPT則是其調校後的版本,又稱GPT-3.5,於202211月推出,創造五天內超過百萬人使用的紀錄。

資料來源:作者自行繪製

圖、ChatGPT背後技術架構示意圖

 

變換模型

變換模型(Transformer)是2017年由Google團隊提出的一種語言模型。在此之前,自然語言處理界最熱門的是基於循環神經網路(Recurrent Neural Network, RNN)的各種衍生模型(例如:Bidirectional, LSTM)。一般來說語言通常要考慮前後文,也就是說,一個語言若能考慮前後文關係,對語句判斷準確率就會顯著提高。Google提出的變換模型採用注意力(Attention)單元,不考慮前後文關係,意即當變換模型收到一個句子時,它直接計算每個詞間的關係與權重。

海量數據

光有語言模型沒有數據,無法算出精確的結果,OpenAI團隊主要使用了「Common Crawl」以及「WebText2」這兩套數據庫,前者是累積8年間的全網資料,後者則是從Reddit論壇中被標示+3vote(亦即至少有三位使用者認為該連結有幫助)的外部連結網站內容,這兩套數據庫佔了全部使用的數據的80%以上。

巨量運算硬體

GPT-3的模型高達1750億個參數,比它的前一代GPT-2高出100倍以上,背後訓練需要龐大的運算資源,在OpenAI發布的論文中指出,在訓練階段的資料量超過光是最Common Crawl就使用了45TB的資料,訓練期間在微軟提供的Nvidia V100 GPU叢集以及超高速網路上進行運算,由於運算資源過於昂貴,團隊現階段亦無法再次進行訓練。

ChatGPT-3應用現況

GPT-3的應用範圍很廣,透過遷移學習(transfer learning),它可以進行基礎的機器翻譯、聊天機器人、生成文章等應用,ChatGPT在加上真人反餽加強學習(Reinforcement Learning from Human Feedback, RLHF)的技術,以監督式學習的方式,加上人工標註的獎勵模型,最終調校出接近人類自然語言的表現。ChatGPT目前應用僅限於測試性質,微軟投資ChatGPT,規劃將其整合進微軟的Office服務中,以前創建一個word或powerpoint文件要從零開始,藉由ChatGPT,用戶可以預先輸入使用目的,由ChatGPT預先產製文件讓使用者修改使用。

產業趨勢說明

從ChatGPT推出以後,其巨量資料達到的效果讓人驚艷,同時亦有企業進行類似的開發應用,例如以色列AI21 Studio正在開發中的Jurassic-1語言模型,然而要訓練調校如此龐大的模型,背後需有相當的資本與高階開發人力,所以產業應用趨勢上短期內若需要應用仍會以OpenAI將發布的付費API進行串接。在發展趨勢上,若ChatGPT允許企業自行開發RLHF,將可更貼近各領域商業化應用,例如金融機構未來可以應用ChatGPT升級現有的客服機器人;另外,ChatGPT目前對語意較複雜的法遵內容和數字運算上表現仍有改進空間,在開發金融機構客戶機器人服務,若涉及這些部分的問答,可能仍須採用混搭模式處理。

 

資料來源

  1. Browne, A., (Jan 10, 2023). TECH Microsoft reportedly plans to invest $10 billion in creator of buzzy A.I. tool ChatGPT, CNBC NEWS. https://www.cnbc.com/2023/01/10/microsoft-to-invest-10-billion-in-chatgpt-creator-openai-report-says.html
  2. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems33, 1877-1901.
  3. OpenAI (Ed.)(Nov 30, 2022). ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/

封面圖

圖片來源:作者自行繪製

延伸閱讀