NLP(自然語言處理)為機器理解並解釋人類寫作、說話方式的能力,其目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距,NLP包含NLU和NLG,這兩者可視為相反的程序,NLU將人類語言轉成內部計算表示式,而NLG則將內部計算表示式轉成人類語言:
技術類型 |
定義 |
自然語言理解 NLU |
理解給定文本的含意,透過詞彙和語法規則了解每個單詞的含意,包含: ● 詞法歧異性─ 單詞有多種含意 ● 句法歧異性─ 語句有多重解析方式 ● 語意歧異性─ 句子有多重含意 ● 回指歧異性─ 前述的單詞或短句在後面有不同含意 |
自然語言生成 NLG |
從結構化數據中自動生成可閱讀的文本,包含: ● 文本規劃─ 完成結構化數據中基礎內容的規劃 ● 語句規劃─ 從結構化數據中組合語句,表達訊息 ● 實現─ 產生語法通順的語句來表達文本 |
NLP近期發展趨勢:「從符號主義和連接主義的對立走向合作,從靜態分析走向交互,從語法和淺層語意走向深層語意,從功能主義走向認知和情感體驗」,其中熱門的領域包含:
自然語言對話將會開啟新的人機交互時代,然而對話有大量的省略和指代,必須透過大量的上下文訊息才能夠理解對話,因此對於訓練數據有指數級別上升的要求,故目前的對話系統一定是在限定場景下發揮作用的
透過大量閱讀和記憶網絡回答開放性問題
不須以人力輸入標籤,僅需提供範例,機器在學習時會自動找出潛在規則,包含集群(clustering)演算法、關聯規則探索(association rule discovery)等
透過RNN-language model做自然語言生成已相當成熟,而透過GAN/VAE生成也相當熱門,但生成模型在自然語言方面並沒有像在圖像方面的顯著成效,最主要的課題在於NLG的應用目的尚不明朗,目前許多應用仍是在精心設計下的模板中產生,若能有清楚的應用標的,便能夠產出具有意義的應用,Gartner預測2018年將有2成的商業內容是由機器人所撰寫
NLG分類及主要應用模式
文章source:Xenonstack、竹間智能