NLP技術類型及發展趨勢

翁逸姝
2018-10-31

NLP(自然語言處理)為機器理解並解釋人類寫作、說話方式的能力，其目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距，NLP包含NLU和NLG，這兩者可視為相反的程序，NLU將人類語言轉成內部計算表示式，而NLG則將內部計算表示式轉成人類語言：

技術類型

定義

自然語言理解 NLU

理解給定文本的含意，透過詞彙和語法規則了解每個單詞的含意，包含：

● 詞法歧異性─ 單詞有多種含意

● 句法歧異性─ 語句有多重解析方式

● 語意歧異性─ 句子有多重含意

● 回指歧異性─ 前述的單詞或短句在後面有不同含意

自然語言生成 NLG

從結構化數據中自動生成可閱讀的文本，包含：

● 文本規劃─ 完成結構化數據中基礎內容的規劃

● 語句規劃─ 從結構化數據中組合語句，表達訊息

● 實現─ 產生語法通順的語句來表達文本

NLP近期發展趨勢：「從符號主義和連接主義的對立走向合作，從靜態分析走向交互，從語法和淺層語意走向深層語意，從功能主義走向認知和情感體驗」，其中熱門的領域包含：

對話系統Dialogue

自然語言對話將會開啟新的人機交互時代，然而對話有大量的省略和指代，必須透過大量的上下文訊息才能夠理解對話，因此對於訓練數據有指數級別上升的要求，故目前的對話系統一定是在限定場景下發揮作用的

閱讀理解Open-domain QA

透過大量閱讀和記憶網絡回答開放性問題

非監督式學習Unsupervised Learning

不須以人力輸入標籤，僅需提供範例，機器在學習時會自動找出潛在規則，包含集群(clustering)演算法、關聯規則探索(association rule discovery)等

自然語言生成NLG

透過RNN-language model做自然語言生成已相當成熟，而透過GAN/VAE生成也相當熱門，但生成模型在自然語言方面並沒有像在圖像方面的顯著成效，最主要的課題在於NLG的應用目的尚不明朗，目前許多應用仍是在精心設計下的模板中產生，若能有清楚的應用標的，便能夠產出具有意義的應用，Gartner預測2018年將有2成的商業內容是由機器人所撰寫

NLG分類及主要應用模式

NLG可分為四大類：

以樣板或規則，輔以語料，經計算後產生
使用通用的演算法，產生多組候選結果，經過評估挑選後產生
使用有限狀態機(finite-state machine)或統計式機器翻譯(statistical machine translation)的技巧，逐句產生
使用語料，以遞歸神經網路(RNN)和長短期記憶模型(LSTM)做學習，並採用增強式學習(reinforcement learning)，經過生成、對抗、優化挑選，迭代產生結果，可在文法上(grammatical)、意義上(meaningful)、特定需求上(例如符合特定格式，或呈現重點)，有更好的表現