FIND好書》解析AI ChatGPT運作 為什麼GPT數學不好?



FIND推薦好書:AI不斷發展,一直都有新的進步跟突破,而AI ChatGPT更掀起全球矚目。GPTGenerative Pre-trained Transformer的簡稱,中文全名是「生成型預訓練變換模型」,是202212月首次公布,它之所以吸睛在於對GPT提問後,能得到超過自身能力的答案,因此註冊會員在短時間內就超過1億人數的大關。到底GPT對現代社會有哪些影響?那第一步必須先了解GPT的運作機制是什麼?GPT真的這麼聰明嗎?有哪些知識或應用上的限制呢?

本文作者:Virtuoso維圖歐索

解析GPT的運作機制

GPT(Generative Pre-trained Transformer)類似於向量網路,因為它使用一種稱為向量表示的技術,也稱為嵌入(Embedding),以模型能夠理解和處理的數學格式來表示單詞和其他語言元素。

 

在向量表示中,每個詞或語言元素都被分配了一個獨特的向量或一組數字。然後,這些向量被用做模型的輸入,使其能夠理解這些詞的含意和上下文。這很重要,因為傳統的模型如RNN,很難理解長句或複雜文本的含意。

 

GPT使用這些向量表示做為輸入,然後為輸入的每個詞生成一個詞彙的概率分布。透過這樣做,它可以生成與輸入相似的新文本,但有變化。

 

GPT就像一個向量網路,因為它使用向量表示做為其架構的一個重要部分,使得該模型能夠理解它所處理的文本的含意和背景。因此GPT能夠生成類似人類的文本,並執行廣泛的自然語言處理任務,如語言翻譯和總結。

 

總之,GPT使用向量標記法來理解文本的含意,然後生成與輸入相似的新文本。這種理解輸入文本並在此基礎上生成新文本的能力,是GPT強大和通用的原因。而Self-Attention是GPT的一個重要成分,因為它允許模型權衡輸入序列中不同部分的重要性。

 

當模型收到一個輸入時,它使用Self-Attention來確定輸入的哪些部分對理解文本的含意最為重要。這是透過為輸入序列中的每個詞計算一組注意力權重來完成的,其中注意權重代表了每個詞在理解整個序列的意義方面的重要性。

 

一旦注意權重被計算出來,模型就會在處理輸入時使用它們來關注輸入的某些部分。這使得模型能夠理解一個句子的上下文和含意,即使它是一個長且複雜的句子。

 

GPT中向量表示和Self-Attention的結合,使該模型能夠以傳統模型(如RNN)無法理解的方式理解文本的含意。向量表示提供模型可以理解的單詞的數學表示,而Self-Attention則允許模型專注於輸入文本中最重要的部分。這兩個部分結合在一起,使GPT成為處理自然語言的一個強大而通用的模型。

 

使用者輸入句子→(透過Self-Attention拆解轉換為向量)→(GPT利用這些向量找到相關的內容)→重新生成有意義的內容。

白話解說GPT運作原理

這一章是否讓你感到困惑呢?其實它的原理並不複雜。你可以把這裡的「訓練」,替換為「人類閱讀」的概念。

 

所謂訓練GPT就是:

  1. 把一本書拆解開來。
  2. 將拆完的書,再拆成句子。
  3. 再將這些句子劃上重點做筆記,把系統裡面如維基百科般的詞條互連收錄起來。

 

當你詢問GPT問題的時候,GPT也會拆解你的指令句/問句,去神經網路後面找到「最相近」的「詞條群」(利用數學計算相似度),重新生成有意義的回答給你。

 

目前的GPT神經網路內收錄了大量的「常識」,所以他能夠回答你常識上的問題。或是用「常識」根據你的問題,「推論」出可能的結果。

GPT的知識與應用上的限制

在網路上,我們經常能看到對於GPT的蔑視和嘲笑,主要體現在兩個方面。一方面是嘲笑GPT無法提供與「維基百科」上隨手可查詢的熱門詞條相符的訊息,而另一方面是質疑GPT的基本數學能力。

 

然而關於這兩個面向,其他語言模型(甚至人)也有這個問題。原因是:

  1. GPT是由輸入的資料模型訓練出來,它的記憶內若沒有你所問的相關資料,它就無法回答。更因為它是生成式AI,它會在已有的資訊之上試圖「補完」它的回答。直白說就是類似人類的「瞎掰」。
  2. GPT與其他NLP模型一樣,不擅長數學任務。

 

GPT不擅長數學的原因在於:

  1. 缺乏數學知識:GPT是在文本數據上訓練的,對數學概念沒有深刻的理解。它沒有能力解決複雜的數學方程式,或執行其他需要對數學概念有深刻理解的數學任務。
  2. 對符號和記號的理解有限:數學式經常使用符號和記號,這對NLP模型的理解是一個挑戰。例如,數學符號可能使用有多種解釋的符號,使模型難以確定它們的含意。
  3. 在推理上遇到困難:數學任務往往需要超越簡單模式識別的推理和邏輯。NLP模型,包括GPT,善於識別數據中的模式,但是進行較複雜的推理會很吃力。
  4. 依賴既有的知識:數學任務往往需要預先存在的知識,例如理解數學對象的屬性和它們之間的關係。NLP模型,包括GPT,可能無法獲得這些知識,使其難以執行數學任務。

 

人們通常會期望AI無所不知、計算能力強大。但若因為這兩個缺點而不重視GPT,往往會低估它真正的威力。

 

然而,這兩個方面對於一般人類來說也是極具挑戰性的。人類的大腦不可能記憶幾百GB的知識,也不可能對每個問題都能正確回答,或在瞬間推導出多位乘法和微積分。

 

使用者若知道避開GPT的弱項,轉而利用GPT的強項為己所用,將會深受其益。

本文內容出自:《都問AI吧!ChatGPT上手的第一本書》,由商周出版授權轉載,並同意FIND編寫導讀及修訂標題。

首圖來源:Pixabay

延伸閱讀