Google Incs. 的新語言模型-Switch Transformer


在一般的深度學習模型中,主要只使用一組模型的參數,並透過反覆的微調再利用,使得模型能適用在其他相近的領域。而多專家任務模型(Mixture of Experts; MoE),不同於以往的模式,針對不同的輸入例使用不同的參數,以期達到更好的效果。此種模式就像聚集了一堆領域專家,當資料進來時,會針對資料的特性分配到該領域的專家,如金融方面的文章以及問題會分給若干個金融專家,金融專家會針對看到的文章和問題做出解答,再把專家的意見綜合起來作出結論當作問題的解答回傳給提問者。而此模式特點是使用稀疏活化模型(sparsely-activated models),意即一次只使用部分的模型參數(也就是領域專家)能計算結果,此舉能讓模型在增加大量的參數時亦能維持原來的運算複雜度。然而MoE模型還是過於複雜且存在太多溝通成本,而且會有訓練不穩定的情形狀況,因此[1]的作者在2021年一月提出了switch transformer的做法來改善這些缺失。

回顧一下MoE的做法,每當有輸入進來時,分配器(router)會從N個專家中挑選對此輸入表現最好(閾閥值最高)的k個專家,由各專家計算出結果,再將依閾閥值的比例去分配結果權重以取得最後的成果。而[1]的作者把一次挑k個專家的方式改成一次只挑一個專家,這樣可以得到下列好處:

1.分配器使用的運算資源變少(一次只挑一個)

2.每批次的資料量大小會至少減半(不用重覆傳送資料到其他專家)

3.分配器的實作變簡單。下圖將呈現switch transformer的基本架構。

資料來源:[1] 

圖、 Switch Transformer Encoder Block

作者提到了switch transformer有下列優點

  1. 但同等級的機器下,switch transformer能用7倍以上的速度訓練出和T5 model同等級的model。
  2. 在模型蒸餾後,可以縮減模型99%大小,但仍保存30%以上的效能增益。
  3. 在涵蓋101種語言的多語言版本訓練的增益都超過mT5-Base。 

參考來源:

1.Fedus, William, Barret Zoph, and Noam Shazeer. "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity." arXiv preprint arXiv:2101.03961 (2021).

延伸閱讀