NLP:Transformer簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略

      網(wǎng)友投稿 3060 2025-03-31

      NLP:Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略


      目錄

      Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略

      1、Transformer的簡(jiǎn)介

      NLP:Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略

      (1)、Transforme的四4個(gè)優(yōu)點(diǎn)和2個(gè)缺點(diǎn)

      2、Transformer 結(jié)構(gòu)—純用attention搭建的模型→計(jì)算速度更快

      Transformer的簡(jiǎn)介(優(yōu)缺點(diǎn))、架構(gòu)詳解之詳細(xì)攻略

      1、Transformer的簡(jiǎn)介

      自 2017 年 Transformer 技術(shù)出現(xiàn)以來(lái),便在 NLP、CV、語(yǔ)音、生物、化學(xué)等領(lǐng)域引起了諸多進(jìn)展。

      Transformer模型由Google在2017年在 Attention Is All You Need[1] 中提出。該文使用 Attention 替換了原先Seq2Seq模型中的循環(huán)結(jié)構(gòu),給自然語(yǔ)言處理(NLP)領(lǐng)域帶來(lái)極大震動(dòng)。隨著研究的推進(jìn),Transformer 等相關(guān)技術(shù)也逐漸由 NLP 流向其他領(lǐng)域,例如計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音、生物、化學(xué)等。

      因此,我們希望能通過(guò)此文盤(pán)點(diǎn) Transformer 的基本架構(gòu),分析其優(yōu)劣,并對(duì)近年來(lái)其在諸多領(lǐng)域的應(yīng)用趨勢(shì)進(jìn)行梳理,希望這些工作能夠給其他學(xué)科提供有益的借鑒。

      本節(jié)介紹 Transformer 基本知識(shí)。限于篇幅,在這篇推文中,我們先介紹 Transformer 的基本知識(shí),以及其在 NLP 領(lǐng)域的研究進(jìn)展;后續(xù)我們將介紹 Transformer 在其他領(lǐng)域(CV、語(yǔ)音、生物、化學(xué)等)中的應(yīng)用進(jìn)展。

      (1)、Transforme的四4個(gè)優(yōu)點(diǎn)和2個(gè)缺點(diǎn)

      (1) 每層計(jì)算復(fù)雜度更優(yōu):Total computational complexity per layer,時(shí)間復(fù)雜度優(yōu)于R、C等。

      (3) 一步計(jì)算解決長(zhǎng)時(shí)依賴問(wèn)題:這里Path length指的是要計(jì)算一個(gè)序列長(zhǎng)度為n的信息要經(jīng)過(guò)的路徑長(zhǎng)度。CNN需要增加卷積層數(shù)來(lái)擴(kuò)大視野,RNN需要從1到n逐個(gè)進(jìn)行計(jì)算,而self-attention只需要一步矩陣計(jì)算就可以。所以也可以看出,self-attention可以比rnn更好地解決長(zhǎng)時(shí)依賴問(wèn)題。當(dāng)然如果計(jì)算量太大,比如序列長(zhǎng)度n>序列維度d這種情況,也可以用窗口限制self-attention的計(jì)算數(shù)量。

      (4) 模型更可解釋:self-attention模型更可解釋,attention結(jié)果的分布表明了該模型學(xué)習(xí)到了一些語(yǔ)法和語(yǔ)義信息。

      實(shí)踐上:有些RNN輕易可以解決的問(wèn)題,transformer沒(méi)做到,比如復(fù)制string,或者推理時(shí)碰到的sequence長(zhǎng)度比訓(xùn)練時(shí)更長(zhǎng)(因?yàn)榕龅搅藳](méi)見(jiàn)過(guò)的position embedding)。

      理論上:transformers非computationally universal(圖靈完備),(我認(rèn)為)因?yàn)闊o(wú)法實(shí)現(xiàn)“while”循環(huán)。

      2、Transformer 結(jié)構(gòu)—純用attention搭建的模型→計(jì)算速度更快

      更新……

      神經(jīng)網(wǎng)絡(luò) 自然語(yǔ)言處理基礎(chǔ)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:保存excel表單(如何保存表單內(nèi)容)
      下一篇:ppt中如何調(diào)整表格的行間距(ppt中怎么調(diào)整表格的行間距)
      相關(guān)文章
      jlzzjlzz亚洲jzjzjz| 亚洲国产精品网站久久| 亚洲欧好州第一的日产suv| 亚洲高清在线mv| 亚洲第一视频网站| 亚洲av无码专区在线播放 | 久久精品国产亚洲av麻豆图片| 18gay台湾男同亚洲男同| 久久久久亚洲AV无码网站| 亚洲人成电影亚洲人成9999网| 亚洲爆乳精品无码一区二区三区 | 国产亚洲成人在线播放va| 国产亚洲AV手机在线观看| 亚洲日产无码中文字幕| 国产AV无码专区亚洲AV毛网站 | 亚洲色最新高清av网站| 亚洲午夜精品久久久久久app | 亚洲av无码一区二区三区不卡| 亚洲AV午夜成人片| 亚洲欧洲免费视频| 亚洲精品综合久久中文字幕| 亚洲妇女水蜜桃av网网站| 亚洲图片中文字幕| 亚洲人成77777在线观看网| 亚洲日本在线电影| 在线亚洲v日韩v| 国产成人精品日本亚洲专区 | 亚洲日韩一区二区一无码| 亚洲av无码无线在线观看| 高清在线亚洲精品国产二区| 亚洲高清无码在线观看| 国产亚洲精品精品国产亚洲综合| 国产日韩亚洲大尺度高清| 亚洲成人激情在线| 亚洲成aⅴ人片在线影院八| 亚洲第一区二区快射影院| 青青青亚洲精品国产| 久久精品亚洲男人的天堂| 亚洲成AV人片在线观看无码 | 亚洲片一区二区三区| 精品久久久久久亚洲|