Google開源AI演算法-可辨識人聲及內容


Google在GitHub平台上,開源了一套AI演算法,可即時辨識人聲及內容,Google期望,能夠引出更多類似的研究相互交流。

而語音辨識系統中,最重要的功能是語者自動分段標記(Speaker Diarization),語者自動分段標記能區分語音中不同人聲以及其內容,但是這類的系統並不適合使用監督式學習來訓練,還需能夠判斷出未在訓練中的出現的人聲,Google研究人員採取全監督式語者自動分段標記(Fully Supervised Speaker Diarization)的作法,取名為Unbounded Interleaved-State Recurrent Neural Networks,UIS-RNN,以此方法來提高效率。

此模型能在多人對話中,解決誰在什麼時候說了什麼(who spoke when)的問題,在 NIST SRE 2000 CALLHOME測試中的最低錯誤率為7.6%,低於叢集方法的8.8%,以及深度神經網路嵌入方法的9.9%。Google表示,此錯誤率是基於線上應用,代表此模型適合在各即時狀況運用。

與其他叢集演算法不同在於,所有的人聲向量都建模自共享參數的RNN(遞歸神經網絡),再使用交錯時間中,不同的RNN狀態以區分人聲。每個人聲皆有屬於自己的RNN,再藉由人聲新的向量來更新RNN狀態,當不同的人聲出現時,就會切換RNN並更新其狀態,能有效運用大量標籤資料,而叢集演算法總是單一人聲獨立運作,難以應付多人聲的狀況。

參考來源:

 iThome:https://ithome.com.tw/news/126984

Google AI Blog:https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html

 

延伸閱讀