[NAS論文][Transformer]HAT: Hardware-Aware Transformers.....

      網友投稿 813 2025-04-01

      [HAT: Hardware-Aware Transformers for Efficient Natural Language Processing]


      論文地址:https://arxiv.org/abs/2005.14187

      [NAS論文][Transformer]HAT: Hardware-Aware Transformers.....

      -碼:https://github.com/mit-han-lab/hardware-aware-transformers.git

      【總覽】

      1、一個足夠的設計空間中使用一個高效的權重共享SuperTransformer進行硬件感知的神經結構搜索[NAS],并發現高性能低延遲模型,消耗的成本比之前的Evolved Transformer少四個數量級

      2、在評估Transformer的時候,往往有兩個問題,1是FLOPs并不反映測量的latency。雖然在現有很多論文里,FLOPs被用作效率的衡量標準,但是其實在不同硬件下,FLOPs和latency之間并不完全對應,下圖可見,同樣的FLOPs模型的latency其實可以差很遠。2是不同的硬件偏好的模型結構不同。ARM 對于Hidden Dim, Embedding Dim 和 Layer Num都比較敏感下圖(a),大致呈線性關系。但是Intel CPU和NVIDIA?GPU卻基本只和layer num呈線性關系(下圖bc),這也本文的動機,為不同的硬件提供他們喜歡的模型架構。

      【方法】

      為了使得Transformer可以變成超網絡,提供可選的op,也就是從Transformer --> superTransformer這個過程,有兩點改變:

      1、Arbitrary Encoder-Decoder Attention

      傳統的transformer只從encoder最后一層抽取信息,迫使雖有的解碼器只從高抽象層學習,而忽略了低級信息,形成了信息瓶頸。因此,本文對transformer做的第一個改變是允許每個解碼器層可以選擇多個編碼器層,它允許關注不同的抽象級別,從而提高了模型的容量,如下圖所示。

      2、?Heterogeneous Transformer Layers

      傳統的 Transformer 對所有的層重復同樣的網絡結構。在本文中,所以層的結構可以不相同,例如有不同的頭數(Head Number),隱藏層維度(Hidden Dim),詞向量長度(Embedding Dim)等等(?with different numbers of heads, hidden dim, and embedding dim)。

      ①?hidden dim?elastic

      傳統的transformer的hidden dim是embedding dim 的2倍、4倍,但這不是最優的,因為不同的層需要不同的能力,這取決于特征提取的難度

      ②?elastic?embedding dim

      也支持編碼器和解碼器的elastic?embedding?dim,但在編碼器/解碼器內部是尺度一致的

      ③?elastic layers

      【superTransformer構建】

      因為訓練每個架構然后再BLEU上比較不顯示,所以,類似于CNN的supernet,這里也構建一個超網絡涵蓋了所有的子架構,叫做superTransformer,同樣的,也采樣權重共享的方案。對于?elastic embedding dim,所有子架構(subtransformer)共享最長單詞embedding的前端部分和相應的FC層權值。對于elastic?FFN dim,前端FC權重共享,?Elastic layer numbers共享前幾層,對于?elastic head number的注意模塊中,全部Q;K;V向量(長度在NAS空間中是固定的?Q; K; V

      vector dim fixed as 512)通過劃分頭部數部分來共享,上述看下圖。

      superTransformer采用uniformly sample訓練。

      【如果不是共享前面部分,比如說共享中間部分會怎么樣?】

      【Evolutionary Search for SubTransformer】

      【Result】

      結果可以直接看圖:,在機器翻譯任務上,以transformer-big為基準,在GPU上可以加速2.7倍和1.8倍推理速度在WMT'14 En-De/WMT'14 EN-FR任務上

      【結論分析】

      1、從搜到的結果來看,GPU的網絡搜到的網絡偏向于又寬又淺,樹莓派的則又窄又深

      神經網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:python 包之 logging 日志處理教程
      下一篇:win10 wps是什么版本號(win10怎么錄屏)
      相關文章
      久久久久久亚洲av成人无码国产| 国产亚洲国产bv网站在线| 亚洲一区二区三区电影| 国产偷窥女洗浴在线观看亚洲 | 亚洲av无码成人精品区| 国产精品国产亚洲区艳妇糸列短篇| 亚洲中文字幕乱码一区| 亚洲 欧洲 日韩 综合在线| 激情综合亚洲色婷婷五月| 亚洲区视频在线观看| 亚洲国产精品yw在线观看| 亚洲人成在久久综合网站| 亚洲一区二区三区高清视频| 亚洲天堂一区二区三区| 亚洲国产福利精品一区二区| 亚洲剧情在线观看| 亚洲人成图片网站| 亚洲成AV人片在WWW| 99亚洲乱人伦aⅴ精品| 亚洲国产中文字幕在线观看 | 精品亚洲成a人片在线观看| 亚洲综合久久综合激情久久| 亚洲第一香蕉视频| 久久精品国产亚洲AV忘忧草18 | 国产亚洲一区二区三区在线| 久久亚洲精品成人777大小说| 亚洲好看的理论片电影| 亚洲视频在线不卡| 67194在线午夜亚洲| 亚洲中文字幕无码av永久| 国产成人亚洲综合在线| 精品亚洲视频在线观看| 国产精品亚洲A∨天堂不卡| 久久久亚洲精品国产| 亚洲日韩乱码久久久久久| 亚洲一区二区三区国产精华液| 极品色天使在线婷婷天堂亚洲| 精品国产人成亚洲区| 亚洲国产女人aaa毛片在线| 亚洲国产高清在线精品一区| 亚洲欧洲无卡二区视頻|