解析ChatGPT背後運作原理

楊秉哲
2023-03-10
人工智慧、金融科技
20768
分享

最近自然語言界的話題與 OpenAI公司發布的「ChatGPT」開源人工智慧對話機器人服務脫不了關係，這是首個已可被大眾使用，且接近自然文字對話品質的的對話機器人。微軟最近也看好其發展潛力，計畫投資100億美金於OpenAI，ChatGPT前景一片看好。為了進一步瞭解ChatGPT如何運作，本文將介紹其背後的技術GPT-3(Generative Pre-trained Transformer 3)。GPT-3由Elon Musk創辦的OpenAI在2020年12月推出，是一種基於變換模型，搭配海量高品質的數據集，在巨量運算硬體上訓練出的一個語言模型，而ChatGPT則是其調校後的版本，又稱GPT-3.5，於2022年11月推出，創造五天內超過百萬人使用的紀錄。

資料來源：作者自行繪製

圖、ChatGPT背後技術架構示意圖

變換模型

變換模型(Transformer)是2017年由Google團隊提出的一種語言模型。在此之前，自然語言處理界最熱門的是基於循環神經網路(Recurrent Neural Network, RNN)的各種衍生模型(例如：Bidirectional, LSTM)。一般來說語言通常要考慮前後文，也就是說，一個語言若能考慮前後文關係，對語句判斷準確率就會顯著提高。Google提出的變換模型採用注意力(Attention)單元，不考慮前後文關係，意即當變換模型收到一個句子時，它直接計算每個詞間的關係與權重。

海量數據

光有語言模型沒有數據，無法算出精確的結果，OpenAI團隊主要使用了「Common Crawl」以及「WebText2」這兩套數據庫，前者是累積8年間的全網資料，後者則是從Reddit論壇中被標示+3vote(亦即至少有三位使用者認為該連結有幫助)的外部連結網站內容，這兩套數據庫佔了全部使用的數據的80%以上。

巨量運算硬體

GPT-3的模型高達1750億個參數，比它的前一代GPT-2高出100倍以上，背後訓練需要龐大的運算資源，在OpenAI發布的論文中指出，在訓練階段的資料量超過光是最Common Crawl就使用了45TB的資料，訓練期間在微軟提供的Nvidia V100 GPU叢集以及超高速網路上進行運算，由於運算資源過於昂貴，團隊現階段亦無法再次進行訓練。

ChatGPT-3應用現況

GPT-3的應用範圍很廣，透過遷移學習(transfer learning)，它可以進行基礎的機器翻譯、聊天機器人、生成文章等應用，ChatGPT在加上真人反餽加強學習(Reinforcement Learning from Human Feedback, RLHF)的技術，以監督式學習的方式，加上人工標註的獎勵模型，最終調校出接近人類自然語言的表現。ChatGPT目前應用僅限於測試性質，微軟投資ChatGPT，規劃將其整合進微軟的Office服務中，以前創建一個word或powerpoint文件要從零開始，藉由ChatGPT，用戶可以預先輸入使用目的，由ChatGPT預先產製文件讓使用者修改使用。

產業趨勢說明

從ChatGPT推出以後，其巨量資料達到的效果讓人驚艷，同時亦有企業進行類似的開發應用，例如以色列AI21 Studio正在開發中的Jurassic-1語言模型，然而要訓練調校如此龐大的模型，背後需有相當的資本與高階開發人力，所以產業應用趨勢上短期內若需要應用仍會以OpenAI將發布的付費API進行串接。在發展趨勢上，若ChatGPT允許企業自行開發RLHF，將可更貼近各領域商業化應用，例如金融機構未來可以應用ChatGPT升級現有的客服機器人；另外，ChatGPT目前對語意較複雜的法遵內容和數字運算上表現仍有改進空間，在開發金融機構客戶機器人服務，若涉及這些部分的問答，可能仍須採用混搭模式處理。

資料來源

Browne, A., (Jan 10, 2023). TECH Microsoft reportedly plans to invest $10 billion in creator of buzzy A.I. tool ChatGPT, CNBC NEWS. https://www.cnbc.com/2023/01/10/microsoft-to-invest-10-billion-in-chatgpt-creator-openai-report-says.html
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
OpenAI (Ed.)(Nov 30, 2022). ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/

封面圖

圖片來源：作者自行繪製

財團法人資訊工業策進會_蒐集個人資料告知事項暨個人資料提供同意書

解析ChatGPT背後運作原理

專家群介紹

王志清

吳俊達

彭賢恩

蔡政安

鄭旭高