MindSpore開源框架加持,如何「煉出」首個千億參數(shù)、TB級內(nèi)存的中文預(yù)訓(xùn)練語言模型?
近段時間,中文大規(guī)模預(yù)訓(xùn)練語言模型圈有些熱鬧。26 億參數(shù)量的「悟道 · 文源」, 270 億參數(shù)量的 PLUG,以及華為云發(fā)布的千億級別「盤古」NLP 大模型,預(yù)訓(xùn)練語言模型已經(jīng)成長到僅加載就需要 TB 級的內(nèi)存或顯存。
我們可以直觀地想到,「盤古」效果理應(yīng)更好,但計算量需求也更大,訓(xùn)練起來更困難。
然而「盤古」實際上是這樣一次探索:開源框架 MindSpore,昇騰基礎(chǔ)軟硬件平臺,加上超大規(guī)模中文預(yù)訓(xùn)練模型,意味著基礎(chǔ)設(shè)施已然完善了。
這項工作由華為以及北京大學(xué)相關(guān)技術(shù)團隊聯(lián)手完成,在昇騰基礎(chǔ)軟硬件平臺,以及 MindSpore 框架自動并行等黑科技的幫助下,訓(xùn)練出當(dāng)前最大的中文預(yù)訓(xùn)練模型。
那么量級不斷拔高的盤古大模型是如何訓(xùn)練出來的?
接下來,讓我們細致解讀下「盤古」背后的關(guān)鍵技術(shù)。
千億參數(shù),TB 級內(nèi)存的模型
以盤古 2000 億為例,如果我們訓(xùn)練時權(quán)重都用標(biāo)準(zhǔn)的 FP32 數(shù)據(jù)格式,那么算下來,權(quán)重占的空間就達到了 750GB,訓(xùn)練過程中內(nèi)存開銷還會數(shù)倍上升。這 750GB 參數(shù),不是放在硬盤上,也不是加載到內(nèi)存中,而是需要移到昇騰Atlas訓(xùn)練服務(wù)器 HBM(High Bandwidth Memory 高帶寬存儲器)內(nèi)存中,以利用昇騰Atlas訓(xùn)練服務(wù)器訓(xùn)練模型。
模型大 ,意味著數(shù)據(jù)也大,而且都需要是高質(zhì)量數(shù)據(jù)。為了滿足數(shù)據(jù)需求,研發(fā)團隊從互聯(lián)網(wǎng)爬取了 80 TB 文本,并最后清洗為 1TB 的中文數(shù)據(jù)集。
這樣的模型與數(shù)據(jù),已經(jīng)不是我們幾臺服務(wù)器能加載上的了,更不用說進行訓(xùn)練。好在研發(fā)團隊會提供 API,一般算法工程師直接調(diào)用接口就能試試效果。
可以說,目前盤古是業(yè)界首創(chuàng)的千億規(guī)模中文預(yù)訓(xùn)練模型,其中最高參數(shù)量達 2000 億。
超大規(guī)模自動并行,算法工程師的福音
MindSpore 機器學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。