大模型—AI巨頭的角力場
大模型,近期已成為AI產學界的高頻詞匯,顯然,人工智能領域已進入“煉大模型”時代。
深度學習技術興起的近10年間,AI模型基本上是針對特定應用場景需求進行訓練的小模型。小模型用特定領域有標注的數據訓練,通用性差,換到另外一個應用場景中往往不適用,需要重新訓練。另外,小模型的訓練方式基本是“手工作坊式”,調參、調優的手動工作太多,需要大量的AI工程專業人員來完成。同時,傳統模型訓練需要大規模的標注數據,如果某些應用場景的數據量少,訓練出的模型精度就會不理想。這些問題導致當前AI研發整體成本較高,效率偏低,阻礙了行業用戶采用人工智能技術的腳步,成為AI普惠的障礙。
大模型可以解決這些問題,其泛化能力強,可以做到‘舉一反三’,同一模型利用少量數據進行微調或不進行微調就能完成多個場景的任務。
大模型的兩種實現模式:
單體模型:對算力、算法優化、數據分布、模型參數與結果優化等方面要求更高,其模型精度也更高。
浪潮源1.0
微軟聯合英偉達發布的Megatron-Turing
阿里達摩院PLUG
華為盤古/鵬程盤古α(MindSpore支撐)
混合模型:是由多個相對較小的模型組成,然后通過開關的方式組合起來。
Google Switch Transformer
阿里達摩院M6 1萬億參數
智源悟道2.0
大模型的發展
零樣本學習(zero-shot),考驗的是模型直接應用到特定場景中的能力;
小樣本學習(few-shot)則是投入少量數據樣本,模型的精度即可大幅提升起來。
零樣本學習和小樣本學習能力越強,意味著該模型就越有可能在多個場景中實現通用、泛化和規模化復制,對于降低AI使用門檻是大有裨益,這也是目前巨量模型最為聚焦的競爭點。
自從2018年谷歌推出BERT模型以來,語言模型做的越來越大,仿佛沒有終點。短短幾年,模型參數已經從最初的3億,擴張到萬億規模。
現在,大模型更迭速度只會越來越快。
到了2019年初,OpenAI推出GPT-2,15億參數,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。
此后,英偉達威震天(Megatron-LM)83億參數,谷歌T5模型110億參數,微軟 圖靈Turing-NLG模型170億參數。
這些模型一次次不斷地刷新參數規模的數量級,而2020年卻成為這一數量級的分界線。
單體模型
混合模型頂流
單體模型代表介紹
2020年5月OpenAI組織發布了GPT-3模型,該模型擁有1750億參數量、500G高質量預訓練數據集,1萬個GPU訓練,相比于上一代GPT-2模型,各方面數據提升了百倍有余,首次將參數規模提升到千億規模。
GPT-3靠的是通過規模化現有算法模型,來實現算力的增長,其主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
在許多 NLP 數據集上均具有出色的性能,包括翻譯、問答和文本填空任務,這還包括一些需要即時推理或領域適應的任務。
GPT-3生成的新聞我們很難將機器寫的和人類寫的區分。
應用:
英文翻譯
自動創作如小說
人機對話
…
2021.9月底浪潮發布全球最大中文語言(NLP)預訓練模型,源1.0模型參數量高達2457億,訓練采用的高質量中文數據集高達5000GB, 2128張GPU,訓練16天。
特點:
算法方面:全球較大的自然語言理解模型,2457億個參數,是GPT-3的1.4倍,且是單體模型;
數據方面:全球最大的高質量中文數據集,讀完近5年整個中文互聯網的內容,獲得5TB高質量中文數據集;
算力方面:計算效率高,2128張GPU,只需訓練16天。
成績:在權威中文語言理解測評基準CLUE中,源1.0占據零樣本學習(zero-shot)和小樣本學習(few-shot)2項榜單榜首
2021.10月微軟和英偉達聯手發布了Megatron-Turing自然語言生成模型(MT-NLG),5300億參數,使用4480塊GPU訓練,訓練1個多月,號稱同時奪得單體Transformer語言模型界「最大」和「最強」兩個稱號。
沿著所有的人工智能軸線進行了許多創新和突破:將最先進的GPU加速訓練基礎設施與尖端的分布式學習軟件堆棧相融合,實現了前所未有的訓練效率
微軟與NVIDIA建立了高質量的自然語言訓練語料庫,并共同開發了訓練配方,以提高優化效率和穩定性。
在自然語言任務中準確率高。
完成預測
閱讀理解
常識推理
自然語言推理
詞義消歧
涉及領域:自然語言處理(NLP)大模型、計算機視覺(CV)大模型、多模態大模型和科學計算大模型、盤古藥物分子大模型
優勢:
算力強大:鵬城云腦提供澎湃算力
高效的數據處理:7天完成訓練
三方面的頂層設計:
技術公關:
通提高模型泛化和遷移能力,減少對于領域數據標注的依賴和模型微調
解決大模型對于模型架構創新,分布式并行計算,海量數據快速處理的挑戰。
產業孵化:
將大模型大戰成人工智能的重要底座,構筑生態系統。
合作伙伴從技術公關到商業落地全程參與生態構建,共同做大AI產業
商業化驗證
將作坊式,定制化的開發 -> AI工業化開發
大模型可能收編高度定制化的小模型,導致市場向大公司集中。
千億參數中文語言預訓練模型,預訓練階段學習了40TB中文文本數據,并通過行業數據的樣本調優提升模型在場景中的應用性能。
創新:
首次使用Encoder-Decoder架構,
多任務優化和Prompt-based微調
多任務優化使得訓練更穩定
突破性進展:
具備領先的語言理解和模型生成能力
在預訓練階段沉淀了大量的通用知識,既能做理解又能做生成
采用大模型小樣本調優的路線,實現了小樣本學習任務上超越GPT系列
目前業界最大的視覺預訓練模型,包含超過30億參數。
創新:
首次使用模型的按需抽取
首次生成判別損失和基于樣本相似度的對比學習
成就:
在多場景中得到驗證,降低研發成本90%
ImageNet小樣本學習精度業界第一
助力無人機電力智能巡檢
混合模型代表
2021年1月谷歌推出了1.6萬億參數的Switch Transformer大模型,提出了一種可以擴展到萬億參數的網絡,增大參數量,但不增大計算量,且提升了模型效果。在計算資源相同的情況下,Switch Transformer 的訓練速度可以達到 T5 模型的 4-7 倍。
兩大創新點:
基于Transformer MoE網絡結構,簡化了MoE的routing機制,降低了計算量
進一步通過數據并行+模型并行+expert并行的方式降低了訓練通信量,提升訓練性能
悟道1.0(2021.3發布);
悟道2.0(2021.6)參數規模達到1.75萬億,是OpenAI的GPT-3模型的10倍,一躍成為世界最大模型。
特點:
國產,打破分布式訓練瓶頸,開創FastMoE技術,完全基于國產超算GPU平臺打造,實現萬億模型
模型參數量大
精準,一統文本和視覺兩大領域,在問答、繪畫、作詩、視頻等任務中正在逼近圖靈測試
成就:
與新華社合作,將大模型應用于新聞智能化轉型
與“小冰“聯動,打造了虛擬大學生**“華智冰”**
“低碳高效“:僅使用 480 卡 V100 32G GPU 就實現了高效的1萬億 M6 模型的訓練,能耗降低超過 8 成,且效率提升近 11 倍。
創造力再升級:圖片生成清晰度提升至 1024×1024。
首次商用:國內首個實現商業化落地的多模態大模型,已應用于支付寶、淘寶等平臺,參與跨模態搜索、文案撰寫、圖片設計等工作。
經過試用期,M6 將作為 AI 助理設計師正式上崗阿里新制造平臺犀牛智造,通過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計周期
總結
預訓練大模型正在推動一場AI新變革。而在關注這場變革之前,我們更應該關注根技術、根平臺的打造與建設。
當一個大模型具備了豐富的數據和多樣的能力,開發者便不再需要做著零散的工作,而是聚集在生產線的基礎上,發揮更多能力。
或許,AI的工業化時代將就此開始。產業AI的未來突然充盈,繁華盛開!
AI 深度學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。