跳到主要內容

關於序列建模,是時候拋棄RNN和LSTM了

關於序列建模,是時候拋棄RNN和LSTM了

 2018-04-15
在 2014 年,RNN 和 LSTM 起死回生。我們都讀過 Colah 的博客《Understanding LSTM Networks》和 Karpathy 的對 RNN 的頌歌《The Unreasonable Effectiveness of Recurrent Neural Networks》。但當時我們都「too young too simple」。現在,序列變換(seq2seq)纔是求解序列學習的真正答案,序列變換還在語音到文本理解的任務中取得了優越的成果,並提升了 Siri、Cortana、谷歌語音助理和 Alexa 的性能。此外還有機器翻譯,現在機器翻譯已經能將文本翻譯爲多種語言。在圖像到文本、文本到圖像的變換以及視頻文字說明的應用中,序列變換也是卓有成效。
在 2015-2016 年間,出現了 ResNet 和 Attention 模型。從而我們知道,LSTM 不過是一項巧妙的「搭橋術」。並且注意力模型表明 MLP 網絡可以被「通過上下文向量對網絡影響求平均」替換。下文中會繼續討論這一點。
經過兩年多的時間,我們終於可以說:「放棄你的 RNN 和 LSTM 路線吧!」
我們能看到基於注意力的模型已越來越多地被用於谷歌、Facebook 和 Salesforce 的 AI 研究。它們都經歷了將 RNN 模型和其變體用基於注意力的模型替換的過程,而這纔剛剛開始。RNN 模型曾經是很多應用的構建基礎,但相比基於注意力的模型,它們需要更多的資源來訓練和運行。(參見:https://towardsdatascience.com/memory-attention-sequences-37456d271992)
讀者可查閱GitHub項目,理解RNN與CNN在序列建模上的概念與實現。
爲什麼?
RNN、LSTM 和其變體主要對時序數據進行序列處理。如下圖中的水平箭頭部分:
RNN 中的序列處理過程,來自《Understanding LSTM Networks》
這些箭頭表明,在長期信息訪問當前處理單元之前,需要按順序地通過所有之前的單元。這意味着它很容易遭遇梯度消失問題。
爲此,人們開發了 LSTM 模型,LSTM 可以視爲多個轉換門的合併。ResNet 也借鑑於這種結構,它可以繞過某些單元從而記憶更長時間步的信息。因此,LSTM 在某種程度上可以克服梯度消失問題。
LSTM 中的序列處理過程,來自《Understanding LSTM Networks》
但這並不能完全解決該問題,如上圖所示。LSTM 中仍然存在按順序地從過去單元到當前單元的序列路徑。實際上,現在這些路徑甚至變得更加複雜,因爲路徑上還連接了加如記憶的分支和遺忘記憶的分支。毫無疑問,LSTM、GRU 和其變體能學習大量的長期信息(參見《The Unreasonable Effectiveness of Recurrent Neural Networks》),但它們最多隻能記住約 100s 的長期信息,而不是 1000s 或 10000s 等。
並且,RNN 的一大問題是它們非常消耗計算資源。即如果需要快速訓練 RNN,需要大量的硬件資源。在雲端上運行這些模型的成本也很高,隨着語音到文本的應用需求快速增長,雲計算資源目前甚至趕不上它的需求。
解決方案是什麼?
如果序列處理無可避免,那麼我們最好能找到可向前預測和向後回顧的計算單元,因爲我們處理的大多數實時因果數據只知道過去的狀態並期望影響未來的決策。這和在翻譯語句或分析錄製視頻時並不一樣,因爲我們會利用所有數據並在輸入上推理多次。這種向前預測和後向回顧的單元就是神經注意力模塊,下面將簡要介紹這一點。
爲了結合多個神經注意力模塊,我們可以使用下圖所示的層級神經注意力編碼器:
層級神經注意力編碼器
觀察過去信息的更好方式是使用注意力模塊將過去編碼向量彙總到上下文向量 C_t。請注意上面有一個層級注意力模塊,它和層級神經網絡非常相似。
在層級神經注意力編碼器中,多層注意力可查看過去信息的一小部分,例如 100 個向量,而上面層級的注意力模塊能查看到 100 個下層的注意力模塊,也就是 100×100 個向量。即利用層級模塊可極大地擴展注意力機制觀察的範圍。
這就是一種能回顧更多的歷史信息並預測未來的方法。
這種架構類似於神經圖靈機,但令神經網絡通過注意力決定從記憶中需要讀取什麼。這意味着一個實際的神經網絡將決定過去的哪個向量對未來的決策更重要。
但記憶的儲存呢?與神經圖靈機不同,上面的架構將會把所有的歷史表徵儲存在記憶中。這可能是不高效的,若儲存視頻中每一幀的表徵,而大多數情況下表徵向量並不會一幀幀地改變,所以這導致儲存了太多的相同信息。我們確實可以添加另一個單元來防止儲存相關數據,例如不儲存與之前太相似的向量。但這只是一種技巧,更好的方法可能是讓架構自己判斷哪些向量需要儲存,而哪些不需要。這一問題也是當前研究領域的重點,我們可以期待更多有意思的發現。
所以,最後總結來說:忘了 RNN 和它的變體吧,你僅需要的是注意力機制模塊。
目前我們發現很多公司仍然使用 RNN/LSTM 作爲自然語言處理和語音識別等架構,他們仍沒有意識到這些網絡是如此低效和不可擴展。例如在 RNN 的訓練中,它們因爲需要很大的內存帶寬而很難訓練,這對於硬件設計很不友好。本質上來說,遞歸是不可並行的,因此也限制了 GPU 等對並行計算的加速。
簡單來說,每個 LSTM 單元需要四個仿射變換,且每一個時間步都需要運行一次,這樣的仿射變換會要求非常多的內存帶寬,因此實際上我們不能用很多計算單元的原因,就是因爲系統沒有足夠的內存帶寬來傳輸計算。這對於模型的訓練,尤其是系統調參是非常大的限制,因此現在很多工業界應用都轉向了 CNN 或注意力機制。
論文:Attention Is All You Need
論文鏈接:https://arxiv.org/abs/1706.03762
在編碼器-解碼器配置中,顯性序列顯性轉導模型(dominant sequence transduction model)基於複雜的 RNN 或 CNN。表現最佳的模型也需通過注意力機制(attention mechanism)連接編碼器和解碼器。我們提出了一種新型的簡單網絡架構——Transformer,它完全基於注意力機制,徹底放棄了循環和卷積。兩項機器翻譯任務的實驗表明,這些模型的翻譯質量更優,同時更並行,所需訓練時間也大大減少。我們的模型在 WMT 2014 英語轉德語的翻譯任務中取得了 BLEU 得分 28.4 的成績,領先當前現有的最佳結果(包括集成模型)超過 2 個 BLEU 分值。在 WMT 2014 英語轉法語翻譯任務上,在 8 塊 GPU 上訓練了 3.5 天之後,我們的模型獲得了新的單模型頂級 BLEU 得分 41.0,只是目前文獻中最佳模型訓練成本的一小部分。我們表明 Transformer 在其他任務上也泛化很好,把它成功應用到了有大量訓練數據和有限訓練數據的英語組別分析上。

留言

這個網誌中的熱門文章

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示

2017通訊大賽「聯發科技物聯網開發競賽」決賽團隊29強出爐!作品都在11月24日頒獎典禮進行展示 LIS   發表於 2017年11月16日 10:31   收藏此文 2017通訊大賽「聯發科技物聯網開發競賽」決賽於11月4日在台北文創大樓舉行,共有29個隊伍進入決賽,角逐最後的大獎,並於11月24日進行頒獎,現場會有全部進入決賽團隊的展示攤位,總計約為100個,各種創意作品琳琅滿目,非常值得一看,這次錯過就要等一年。 「聯發科技物聯網開發競賽」決賽持續一整天,每個團隊都有15分鐘面對評審團做簡報與展示,並接受評審們的詢問。在所有團隊完成簡報與展示後,主辦單位便統計所有評審的分數,並由評審們進行審慎的討論,決定冠亞季軍及其他各獎項得主,結果將於11月24日的「2017通訊大賽頒獎典禮暨成果展」現場公佈並頒獎。 在「2017通訊大賽頒獎典禮暨成果展」現場,所有入圍決賽的團隊會設置攤位,總計約為100個,展示他們辛苦研發並實作的作品,無論是想觀摩別人的成品、了解物聯網應用有那些新的創意、尋找投資標的、尋找人才、尋求合作機會或是單純有興趣,都很適合花點時間到現場看看。 頒獎典禮暨成果展資訊如下: 日期:2017年11月24日(星期五) 地點:中油大樓國光廳(台北市信義區松仁路3號) 我要報名參加「2017通訊大賽頒獎典禮暨成果展」>>> 在參加「2017通訊大賽頒獎典禮暨成果展」之前,可以先在本文觀看各團隊的作品介紹。 決賽29強團隊如下: 長者安全救星 可隨意描繪或書寫之電子筆記系統 微觀天下 體適能訓練管理裝置 肌少症之行走速率檢測系統 Sugar Robot 賽亞人的飛機維修輔助器 iTemp你的溫度個人化管家 語音行動冰箱 MR模擬飛行 智慧防盜自行車 跨平台X-Y視覺馬達控制 Ironmet 菸消雲散 無人小艇 (Mini-USV) 救OK-緊急救援小幫手 穿戴式長照輔助系統 應用於教育之模組機器人教具 這味兒很台味 Aquarium Hub 發展遲緩兒童之擴增實境學習系統 蚊房四寶 車輛相控陣列聲納環境偵測系統 戶外團隊運動管理裝置 懷舊治療數位桌曆 SeeM智能眼罩 觸...
opencv4nodejs Asynchronous OpenCV 3.x Binding for node.js   122     2715     414   0   0 Author Contributors Repository https://github.com/justadudewhohacks/opencv4nodejs Wiki Page https://github.com/justadudewhohacks/opencv4nodejs/wiki Last Commit Mar. 8, 2019 Created Aug. 20, 2017 opencv4nodejs           By its nature, JavaScript lacks the performance to implement Computer Vision tasks efficiently. Therefore this package brings the performance of the native OpenCV library to your Node.js application. This project targets OpenCV 3 and provides an asynchronous as well as an synchronous API. The ultimate goal of this project is to provide a comprehensive collection of Node.js bindings to the API of OpenCV and the OpenCV-contrib modules. An overview of available bindings can be found in the  API Documentation . Furthermore, contribution is highly appreciated....

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計

完形心理學!?讓我們了解“介面設計師”為什麼這樣設計 — 說服客戶與老闆、跟工程師溝通、強化設計概念的有感心理學 — 情況 1 : 為何要留那麼多空白? 害我還要滾動滑鼠(掀桌) 情況 2 : 為什麼不能直接用一頁展現? 把客戶的需求塞滿不就完工啦! (無言) 情況 3: 這種設計好像不錯,但是為什麼要這樣做? (直覺大神告訴我這樣設計,但我說不出來為什麼..) 雖然世界上有許多 GUI 已經走得又長又遠又厲害,但別以為這種古代人對話不會出現,一直以來我們只是習慣這些 GUI 被如此呈現,但為何要這樣設計我們卻不一定知道。 由於 完形心理學 歸納出人類大腦認知之普遍性的規則,因此無論是不是 UI/UX 設計師都很適合閱讀本篇文章。但還是想特別強調,若任職於傳統科技公司,需要對上說服老闆,需要平行說服(資深)工程師,那請把它收進最愛;而習慣套用設計好的 UI 套件,但不知道為何這樣設計的 IT 工程師,也可以透過本文來強化自己的產品說服力。 那就開始吧~(擊掌) 完形心理學,又稱作格式塔(Gestalt)心理學,於二十世紀初由德國心理學家提出 — 用以說明人類大腦如何解釋肉眼所觀察到的事物,並轉化為我們所認知的物件。它可說是現代認知心理學的基礎,其貫徹的概念就是「整體大於個體的總合 “The whole is other than the sum of the parts.” —  Kurt Koffka」。 若深究完整的理論將會使本文變得非常的艱澀,因此筆者直接抽取個人認為與 UI 設計較為相關的 7 個原則(如下),並搭配實際案例做說明。有興趣了解全部理論的話可以另外 Google。 1. 相似性 (Similarity)  — 我們的大腦會把相似的事物看成一體 如果數個元素具有類似的尺寸、體積、顏色,使用者會自動為它們建立起關聯。這是因為我們的眼睛和大腦較容易將相似的事物組織在一起。如下圖所示,當一連串方塊和一連串的圓形並排時,我們會看成(a)一列方塊和兩列圓形(b)一排圓形和兩排三角形。 對應用到介面設計上,FB 每則文章下方的按鈕圖標(按讚 Like / 留言Comment / 分享 Share)雖然功能各不相同,但由於它們在視覺上顏色、大小、排列上的相似性,用戶會將它們視認為...