三種不可不知的自然語言處理模型

by TibaMe小編
三種不可不知的 自然語言處理模型

作者:林澤佑 老師 編輯:TibaMe行銷團隊

自然語言處理 (NLP) 是個很有趣的領域,其應用領域之廣,要一一細數可能非常困難。

從基於 RNN(遞歸神經網路) 的 Encoder-Decoder (NLP裡的模型框架)的架構,到引入注意力機制 (attention mechanism) 的發展,模型的演化可以說是非常精彩。 Google 在 2017 發表的 一文中,提出了被稱為變形金剛 (Transformer) ,其大量基於矩陣運算的重新定義了注意力機制。 Transformer 其特殊的架構,不僅打破許多資料集上的紀錄,也同時刷新了我們的想像力上限,Transformer 近期更作為 NLP 的標準模型架構被大量使用中,可謂是不可不知的 NLP 模型之一。

不得不談近年來非常熱門的 ELMO、BERT 與 GPT-2 模型,前兩者是基於芝麻街裡面的角色來命名的模型。

ELMO ( 語言模型嵌入的簡稱 )從說明了深層的 LSTM 模型(長短期記憶模型)中,不同隱藏層之間的狀態不盡相同,這點與 CNN( 卷積神經網絡 Convolutional Neural Network) 的低、高階特徵萃取很類似。

作為預訓練模型使用,ELMO 會根據後面接續的任務不同來將隱藏狀態進行組合,以作為 ELMO 的輸出層使用,使其可以根據不同任務進行遷移學習。

BERT (雙向Transformer) 與 GPT-2 (單向Transformer) 則是分別使用了 Transformer 的 Encoder 及 Decoder,GPT-2 最大的特點是使用夠多的訓練文本,使其生成文字的效果及其顯著,做為一般目的性的語言模型而言非常強大。

BERT 則是在特定任務中的表現非常好,如:克漏字填充、問答生成等等,可以發現,這些模型不在於新架構,而是作為不同目的性的來組裝 (魔改?) 過去的模型們。

該如何的去了解這些近代熱門的 NLP 模型,想必不能從最基本的循環神經網路 RNN 開始瞭解起啦~ 根據過去幾年的教學經驗,我已經準備好讓同學可以快速接軌世界的入門磚等級的教材。

不用擔心作業系統會讓安裝程式麻煩百百種,也不用煩惱數學不好或是程式不會寫,這些我通通都用最簡單的方式等你來學習了!

立即點擊學習更多關於深度學習,購課輸入”21BRO95″享TibaMe Blog讀者專屬非早鳥課程95折優惠(2021/12/31止)
分享這篇文章:
0 留言
0

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料