[NAS論文][Transformer]HAT: Hardware-Aware Transformers.....

網友投稿 813 2025-04-01

[HAT: Hardware-Aware Transformers for Efficient Natural Language Processing]

論文地址：https://arxiv.org/abs/2005.14187

-碼：https://github.com/mit-han-lab/hardware-aware-transformers.git

【總覽】

1、一個足夠的設計空間中使用一個高效的權重共享SuperTransformer進行硬件感知的神經結構搜索[NAS]，并發現高性能低延遲模型，消耗的成本比之前的Evolved Transformer少四個數量級

2、在評估Transformer的時候，往往有兩個問題，1是FLOPs并不反映測量的latency。雖然在現有很多論文里，FLOPs被用作效率的衡量標準，但是其實在不同硬件下，FLOPs和latency之間并不完全對應，下圖可見，同樣的FLOPs模型的latency其實可以差很遠。2是不同的硬件偏好的模型結構不同。ARM 對于Hidden Dim, Embedding Dim 和 Layer Num都比較敏感下圖（a），大致呈線性關系。但是Intel CPU和NVIDIA?GPU卻基本只和layer num呈線性關系（下圖bc），這也本文的動機，為不同的硬件提供他們喜歡的模型架構。

【方法】

為了使得Transformer可以變成超網絡，提供可選的op，也就是從Transformer --> superTransformer這個過程，有兩點改變：

1、Arbitrary Encoder-Decoder Attention

傳統的transformer只從encoder最后一層抽取信息，迫使雖有的解碼器只從高抽象層學習，而忽略了低級信息，形成了信息瓶頸。因此，本文對transformer做的第一個改變是允許每個解碼器層可以選擇多個編碼器層，它允許關注不同的抽象級別，從而提高了模型的容量，如下圖所示。

2、?Heterogeneous Transformer Layers

傳統的 Transformer 對所有的層重復同樣的網絡結構。在本文中，所以層的結構可以不相同，例如有不同的頭數（Head Number），隱藏層維度（Hidden Dim），詞向量長度（Embedding Dim）等等（?with different numbers of heads, hidden dim, and embedding dim）。

①?hidden dim?elastic

傳統的transformer的hidden dim是embedding dim 的2倍、4倍，但這不是最優的，因為不同的層需要不同的能力，這取決于特征提取的難度

②?elastic?embedding dim

也支持編碼器和解碼器的elastic?embedding?dim，但在編碼器/解碼器內部是尺度一致的

③?elastic layers

【superTransformer構建】

因為訓練每個架構然后再BLEU上比較不顯示，所以，類似于CNN的supernet，這里也構建一個超網絡涵蓋了所有的子架構，叫做superTransformer，同樣的，也采樣權重共享的方案。對于?elastic embedding dim，所有子架構（subtransformer）共享最長單詞embedding的前端部分和相應的FC層權值。對于elastic?FFN dim，前端FC權重共享，?Elastic layer numbers共享前幾層，對于?elastic head number的注意模塊中，全部Q;K;V向量(長度在NAS空間中是固定的?Q; K; V

vector dim fixed as 512)通過劃分頭部數部分來共享，上述看下圖。

superTransformer采用uniformly sample訓練。

【如果不是共享前面部分，比如說共享中間部分會怎么樣？】

【Evolutionary Search for SubTransformer】

【Result】

結果可以直接看圖：，在機器翻譯任務上，以transformer-big為基準，在GPU上可以加速2.7倍和1.8倍推理速度在WMT'14 En-De/WMT'14 EN-FR任務上

【結論分析】

1、從搜到的結果來看，GPU的網絡搜到的網絡偏向于又寬又淺，樹莓派的則又窄又深

神經網絡

標簽：論文 Transformer

論文 降重在哪里（論文降重在哪里降）">論文 降重在哪里（論文降重在哪里降）

813 2025-04-01

論文出現">怎樣讓相關論文出現

813 2025-04-01

考試來臨，WPS在線模板助你臨陣磨槍">期末考試來臨，WPS在線模板助你臨陣磨槍

813 2025-04-01

<strike id="qka6o"></strike>

<strike id="qka6o"></strike>

[NAS論文][Transformer]HAT: Hardware-Aware Transformers.....

論文 降重在哪里（論文降重在哪里降）">論文 降重在哪里（論文降重在哪里降）

論文出現">怎樣讓相關論文出現

考試來臨，WPS在線模板助你臨陣磨槍">期末考試來臨，WPS在線模板助你臨陣磨槍

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接