FluidSynth】FluidSynth 簡(jiǎn)介 ( 相關(guān)資源鏈接 | 簡(jiǎn)介 | 特征 )">【FluidSynth】FluidSynth 簡(jiǎn)介 ( 相關(guān)資源鏈接 | 簡(jiǎn)介 | 特征 )
3060
2025-03-31
NLP:Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略
目錄
Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略
1、Transformer的簡(jiǎn)介
(1)、Transforme的四4個(gè)優(yōu)點(diǎn)和2個(gè)缺點(diǎn)
2、Transformer 結(jié)構(gòu)—純用attention搭建的模型→計(jì)算速度更快
Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略
1、Transformer的簡(jiǎn)介
自 2017 年 Transformer 技術(shù)出現(xiàn)以來(lái),便在 NLP、CV、語(yǔ)音、生物、化學(xué)等領(lǐng)域引起了諸多進(jìn)展。
Transformer模型由Google在2017年在 Attention Is All You Need[1] 中提出。該文使用 Attention 替換了原先Seq2Seq模型中的循環(huán)結(jié)構(gòu),給自然語(yǔ)言處理(NLP)領(lǐng)域帶來(lái)極大震動(dòng)。隨著研究的推進(jìn),Transformer 等相關(guān)技術(shù)也逐漸由 NLP 流向其他領(lǐng)域,例如計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音、生物、化學(xué)等。
因此,我們希望能通過(guò)此文盤(pán)點(diǎn) Transformer 的基本架構(gòu),分析其優(yōu)劣,并對(duì)近年來(lái)其在諸多領(lǐng)域的應(yīng)用趨勢(shì)進(jìn)行梳理,希望這些工作能夠給其他學(xué)科提供有益的借鑒。
本節(jié)介紹 Transformer 基本知識(shí)。限于篇幅,在這篇推文中,我們先介紹 Transformer 的基本知識(shí),以及其在 NLP 領(lǐng)域的研究進(jìn)展;后續(xù)我們將介紹 Transformer 在其他領(lǐng)域(CV、語(yǔ)音、生物、化學(xué)等)中的應(yīng)用進(jìn)展。
(1)、Transforme的四4個(gè)優(yōu)點(diǎn)和2個(gè)缺點(diǎn)
(1) 每層計(jì)算復(fù)雜度更優(yōu):Total computational complexity per layer,時(shí)間復(fù)雜度優(yōu)于R、C等。
(3) 一步計(jì)算解決長(zhǎng)時(shí)依賴問(wèn)題:這里Path length指的是要計(jì)算一個(gè)序列長(zhǎng)度為n的信息要經(jīng)過(guò)的路徑長(zhǎng)度。CNN需要增加卷積層數(shù)來(lái)擴(kuò)大視野,RNN需要從1到n逐個(gè)進(jìn)行計(jì)算,而self-attention只需要一步矩陣計(jì)算就可以。所以也可以看出,self-attention可以比rnn更好地解決長(zhǎng)時(shí)依賴問(wèn)題。當(dāng)然如果計(jì)算量太大,比如序列長(zhǎng)度n>序列維度d這種情況,也可以用窗口限制self-attention的計(jì)算數(shù)量。
(4) 模型更可解釋:self-attention模型更可解釋,attention結(jié)果的分布表明了該模型學(xué)習(xí)到了一些語(yǔ)法和語(yǔ)義信息。
實(shí)踐上:有些RNN輕易可以解決的問(wèn)題,transformer沒(méi)做到,比如復(fù)制string,或者推理時(shí)碰到的sequence長(zhǎng)度比訓(xùn)練時(shí)更長(zhǎng)(因?yàn)榕龅搅藳](méi)見(jiàn)過(guò)的position embedding)。
理論上:transformers非computationally universal(圖靈完備),(我認(rèn)為)因?yàn)闊o(wú)法實(shí)現(xiàn)“while”循環(huán)。
2、Transformer 結(jié)構(gòu)—純用attention搭建的模型→計(jì)算速度更快
更新……
神經(jīng)網(wǎng)絡(luò) 自然語(yǔ)言處理基礎(chǔ)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。