NLP技術類型及發展趨勢


NLP(自然語言處理)為機器理解並解釋人類寫作、說話方式的能力,其目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距,NLP包含NLU和NLG,這兩者可視為相反的程序,NLU將人類語言轉成內部計算表示式,而NLG則將內部計算表示式轉成人類語言:

技術類型

定義

自然語言理解 NLU

理解給定文本的含意,透過詞彙和語法規則了解每個單詞的含意,包含:

●       詞法歧異性─ 單詞有多種含意

●       句法歧異性─ 語句有多重解析方式

●       語意歧異性─ 句子有多重含意

●       回指歧異性─ 前述的單詞或短句在後面有不同含意

自然語言生成 NLG

從結構化數據中自動生成可閱讀的文本,包含:

●       文本規劃─ 完成結構化數據中基礎內容的規劃

●       語句規劃─ 從結構化數據中組合語句,表達訊息

●       實現─ 產生語法通順的語句來表達文本

 

NLP近期發展趨勢:「從符號主義和連接主義的對立走向合作,從靜態分析走向交互,從語法和淺層語意走向深層語意,從功能主義走向認知和情感體驗」,其中熱門的領域包含:

  • 對話系統Dialogue

自然語言對話將會開啟新的人機交互時代,然而對話有大量的省略和指代,必須透過大量的上下文訊息才能夠理解對話,因此對於訓練數據有指數級別上升的要求,故目前的對話系統一定是在限定場景下發揮作用的

  • 閱讀理解Open-domain QA

透過大量閱讀和記憶網絡回答開放性問題

  • 非監督式學習Unsupervised Learning

不須以人力輸入標籤,僅需提供範例,機器在學習時會自動找出潛在規則,包含集群(clustering)演算法、關聯規則探索(association rule discovery)等

  • 自然語言生成NLG

透過RNN-language model做自然語言生成已相當成熟,而透過GAN/VAE生成也相當熱門,但生成模型在自然語言方面並沒有像在圖像方面的顯著成效,最主要的課題在於NLG的應用目的尚不明朗,目前許多應用仍是在精心設計下的模板中產生,若能有清楚的應用標的,便能夠產出具有意義的應用,Gartner預測2018年將有2成的商業內容是由機器人所撰寫

NLG分類及主要應用模式

  • NLG可分為四大類:
  1. 以樣板或規則,輔以語料,經計算後產生
  2. 使用通用的演算法,產生多組候選結果,經過評估挑選後產生
  3. 使用有限狀態機(finite-state machine)或統計式機器翻譯(statistical machine translation)的技巧,逐句產生
  4. 使用語料,以遞歸神經網路(RNN)和長短期記憶模型(LSTM)做學習,並採用增強式學習(reinforcement learning),經過生成、對抗、優化挑選,迭代產生結果,可在文法上(grammatical)、意義上(meaningful)、特定需求上(例如符合特定格式,或呈現重點),有更好的表現
  • 在應用上,NLG可用於:
  1. 輔助寫作,如產生天氣預報、實驗或模擬結果的文件化、客服人員的回信(QA)、技術手冊的撰寫
  2. 機器寫作,如論文或專利的摘要、統計數據的文件化、病人就診紀錄及資訊的解釋
  3. 教學,如語言的教學及練習
  4. 行銷,如高轉換率、個人化的商品描述及廣告文案的生成
  5. 行為改變,如個人推薦、改變其購買行為或品牌,戒菸文件的產生
  6. 娛樂,如詩歌或笑話產生器,劇本生成

參考來源:

文章source:Xenonstack竹間智能

封面圖片(免費下載):https://pixabay.com/zh/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD-%E6%9C%BA%E5%99%A8%E4%BA%BA-ai-%E3%81%8D-%E7%BC%96%E7%A8%8B-%E8%AE%A1%E7%AE%97%E6%9C%BA-%E7%8E%AF%E5%A2%83-%E8%AF%AD%E6%B3%95-%E7%A8%8B%E5%BA%8F-2167835/ 

延伸閱讀