ARM architecture overview:一個波瀾壯闊史詩的剪影

      網友投稿 1393 2025-04-01

      【完整提綱】


      一、CPU指令集架構科普

      1、從2300個到百億晶體管

      2、RISC指令集和ARM指令架構

      3、微架構和ARM指令集處理器架構

      二、ARM商業和IP授權模式

      1、ARM商業模式和授權體系

      2、ARM指令集架構授權:蘋果A、M處理器成功典范

      3、ARM處理器內核IP授權:與生態伙伴實現雙贏

      4、ARM Cortex-A:助力國產智能終端SoC崛起

      5、ARMCortex-M:本土廠商卡位物聯網MCU高端市場

      三、ARM演進及V8架構

      1、ARM架構演進:命名規則和位寬

      2、ARMv8-A架構:6個主要模塊

      3、ARMv8 Cluster:設計參考架構((Core(L1I/L1D)-*4+L2)-->Cluster)+AMB Coherent Bus

      4、ARMv8-A/v7架構區別:地址空間4GB/256TB,EL0-3/物理隔離,通用寄存器15-30

      5、ARMv8架構特性總結

      四、ARM v9架構

      1、支持SVE2和矩陣乘法

      2、Armv9 與 Armv8 :安全、AI 以及改進矢量擴展和 DSP 能力

      3、具有保密功能的計算架構

      4、未來 Arm CPU路線圖

      5、Armv9設備將在2022年初面世

      6、華為是否可用?

      一、CPU指令集架構科普

      1971年11月15日,美國英特爾推出世界第一款商用計算機微處理器Intel 4004,被認為是CPU發展史的開端。作為4位處理器,Intel 4004由10um制程工藝在2英寸晶圓上打造,集成了2300個晶體管,主頻為740kHz。

      到了49年后的2020年,第十一代酷睿處理器芯片基于英特爾10nm工藝打造,將集成超過百億個晶體管,最高主頻可高達4.8Ghz。這顆CPU芯片不再是單一的CPU,而是集成了全新架構的Willow Cove內核、Iris X圖形處理器、內存控制器、圖像處理器、媒體解碼器、電源管理、神經元加速器和各類高速接口控制器等各種組件。其中Willow Cove內核正是這顆CPU芯片集成的傳統意義上的CPU。

      計算機指令(Instruction)是計算機硬件直接能識別的命令。指令是由一串二進制數碼組成。一條指令通常由兩個部分組成:操作碼和地址碼。操作碼指明該指令要完成的操作的類型或性質,如取數、做加法或輸出數據等;地址碼指明操作對象的內容或所在的存儲單元地址。計算機程序在硬件上執行是由成千上萬條指令組成的。一段程序通過編譯翻譯成匯編語言,而后通過匯編器翻譯成一條一條機器碼。這些機器碼是由0和1組成的機器語言表示,也就是計算機指令。

      指令集架構(Instruction Set Architecture)是指一種類型CPU中用來計算和控制計算機系統的一套指令的集合。指令集架構主要規定了指令格式、尋址訪存(尋址范圍、尋址模式、尋址粒度、訪存方式、地址對齊等)、數據類型、寄存器。指令集通常包括三大類主要指令類型:運算指令、分支指令和訪存指令。此外,還包括架構相關指令、復雜操作指令和其他特殊用途指令。因此,一種CPU執行的指令集架構不僅決定了CPU所要求的能力,而且也決定了指令的格式和CPU的結構。X86架構和ARMv8架構就是指令集架構的范疇。

      指令集架構以其復雜性可被分類為復雜指令集架構(CISC,Complex Instruction Set Computer)和精簡指令集架構(RISC,Reduced Instruction Set Computer)兩大類。CISC和RISC指令集架構是計算機指令系統的優化發展中先后出現。在計算機發展初期,計算機的優化方向是通過設置一些功能復雜的指令,把一些原來由軟件實現的、常用的功能改用硬件的指令系統實現,以此來提高計算機的執行速度,這種計算機系統就被稱為復雜指令系統計算機。20世紀80年代,盡量簡化計算機指令功能的基本思想被提出,功能簡單、能在一個節拍內執行完成的指令被保留,而較復雜的功能用一段子程序來實現,這種計算機系統就被稱為精簡指令系統計算機。

      ARM指令集架構作為目前最成功RISC架構,主導了智能手機和物聯網芯片處理器市場。根據英偉達公告,基于ARM架構的芯片已累計出貨1800億顆。ARM架構處理器在智能手機芯片、車載信息芯片、可穿戴設備、物聯網微控制器等領域占到90%以上市場份額。90年代,MIPS和Alpha作為知名RISC在與X86競爭計算機市場中失敗,又在錯過智能終端高速發展的機遇中走向衰弱。2010年發布的RISC-V作為從發明伊始即以開源為最大特色的RISC ISA受到全球學界、產業界的高度關注。全球頂級學府、科研機構、芯片巨頭紛紛參與,各國政府出臺政策支持RISC-V的發展和商業化。RISC-V有望成為X86和ARM之后ISA第三極。

      馮·諾依曼體系結構是現代計算機的基礎。1946年美籍匈牙利科學家馮·諾伊曼提出存儲程序原理,把程序本身當作數據來對待,程序和該程序處理的數據用同樣的方式存儲,并確定了存儲程序計算機的五大組成部分和基本工作方法。馮·諾依曼體系結構主要由CPU、存儲器(Memory)和輸入輸出設備(I/O Device)組成。在該體系結構下,指令和數據需要從同一存儲空間存取,經由同一總線傳輸,無法重疊執行。馮·諾依曼體系的CPU工作分為5個階段:取指令階段(instruction fetch)、指令譯碼階段(instruction decode)、執行指令階段(execute)、訪存取數(read memory)和結果寫回(write back)。

      哈佛結構是另一種主要計算機架構體系。與馮諾依曼處理器相比,哈佛結構的指令和數據存在兩個相互獨立的存儲器模塊,使用兩條獨立的總線連接CPU和存儲模塊。而在改進型哈佛結構(Modified Harvard Architecture)中,指令和數據存在兩個相互獨立的存儲器模塊,但是共用地址和數據總線。

      現代的復雜芯片上,已經看到純粹的馮·諾伊曼體系或者哈佛體系,而大多數能看到是兩者融合或者并存的體系。

      實現指令集架構的物理電路被稱為處理器的微架構(Micro-architecture)。因此,通俗來講處理器架構就是處理器電路。通常,具備獨立設計處理器微架構的企業被認為有處理器研發能力。大多數情況下,一種處理器的微架構是針對一種特定指令集架構進行物理實現。少部分處理器架構設計為了更好的兼容性,會在電路設計上實現多個指令集架構。雖然,指令集架構可以授權給多家企業,但微架構的設計細節,也就是對指令的物理實現方式是各家廠商絕對保密的。由于處理器的功能要求、使用場景不同、各家企業設計技術的差異等因素,即使基于同一指令集架構,各個企業也會設計生產出不同的處理器架構。

      在智能移動設備興起的近20年,以ARM模式為代表的內核微架構IP授權模式興起。ARM開發內核微架構后,將它們以IP形式上架出售,芯片廠商以ARM授權的內核為基礎設計芯片使用或對外銷售。基于ARM精簡指令集架構的ARM內核微架構IP選擇多樣、設計精簡可靠、在低功耗領域表現優異,這種授權模式在以手機、平板為代表的移動終端芯片、機頂盒、視頻監控等應用媒體芯片等應用為代表移動智能領域獲得廣泛的成功。ARM因此也成為移動互聯時代的處理器IP授權霸主。

      二、ARM商業和IP授權模式

      作為半導體企業,ARM獨特的商業模式是不設計和制造整芯片,而是專注處理器內核架構的授權。ARM一直以來保持作為處理器IP供應商的中立地位。中立地位幫助ARM通過架構授權廣泛推廣了基于ARM架構的生態系統。ARM處理器架構授權主要分為指令集授權和處理器架構授權兩個層次:一是ARM指令集架構授權,二是ARM處理器架構授權。公司收入來源包括:1)對半導體公司的授權費用,一定時間范圍內是一次性的;2)半導體公司向其他客戶銷售芯片的royalty費用,客戶每生產一顆芯片ARM都有一定百分點的版稅收入;3)向半導體公司、用戶提供技術咨詢服務的費用。

      ARM指令集架構授權指ARM將ARM RISC精簡指令集授權給受讓方。受讓方可以對ARM指令集進行大幅度改造,甚至可以對ARM指令集進行擴展或縮減。之后,受讓方根據自己改進過的指令集研發處理器架構,從而在根源上做到了對處理器架構的差異化設計,保持對自研芯片的掌控力,達成獨特競爭力同時又兼容ARM的完善生態環境。而ARM在這種合作模式中與合作伙伴結成高度緊密的技術合作關系。

      蘋果的A系列處理器是基于ARM指令集架構授權自研內核的成功典范。2012年9月,蘋果隨iPhone5上市發布了A6處理器SoC,這顆SoC基于ARMv7架構打造的Swift內核微架構開啟了蘋果基于ARM架構自研處理器內核的序幕。2013年9月,蘋果率先發布搭載基于ARMv8架構研發的64位Cyclone架構的雙核A7處理器。A7作為世界首款64位智能手機處理器,在性能表現力壓還在32位四核方案上競爭的安卓陣營。蘋果A系列處理器內核性能力壓所有安卓陣營競爭對手序幕由此開啟,并延續至今。

      2020年,蘋果宣稱新發布的A14 Bionic芯片性能已經堪比部分筆記本處理器。蘋果在今年WWDC2020宣布Mac電腦將轉向使用公司自主開發的基于ARM架構處理器。

      我們認為,蘋果結束與英特爾長達15年的合作,轉而使用自研ARM處理器最重要目的是進一步封閉蘋果的軟硬件生態。蘋果希望如同iPhone的成功一樣,從硬件上得到充分自主,做到差異化競爭優勢。從ARM角度來看,蘋果一旦成功也將幫助ARM實現一直以來希望撕開X86壟斷的個人計算機市場的野心。

      ARM處理器架構授權指ARM將自行設計的處理器內核IP授權給客戶。

      客戶可以直接將內核RTL(Register Transition Level)代碼在芯片前端設計時集成在芯片處理器模塊中。客戶也可以對處理器緩存、核數、頻率進行配置。通過系統總線與其他的功能模塊、外設接口、主存儲接口模塊等連接,生成完整的芯片。ARM為各種應用場景提供多樣化的家族化處理器IP解決方案,覆蓋高性能計算、高性能實時、低功耗嵌入式、云端計算、硬件安全和高性能機器學習等場景。ARM的處理器IP授權模式為合作伙伴提供可靠處理器的同時降低芯片開發成本,推動應用的創新。而廣泛的合作伙伴豐富了ARM的生態,奠定ARM在智能時代中智能手機、物聯網等領域處理器主導地位。

      ARM architecture overview:一個波瀾壯闊史詩的剪影

      ARM Cortex系列處理器內核是ARM家族中占據處理器IP市場的核心系列。

      其中,Cortex-A系列面向高性能計算需求、運行豐富操作系統和程序任務的應用領域。例如智能手機、平板電腦、機頂盒、數字電視、路由器和監控SoC芯片等。Cortex-A目前有A7x系列為代表的性能大核產品線和A5x系列為代表低功耗小核產品線。

      現代多核SoC為了兼顧性能峰值表現和低功耗,經常同時集成一定數量大核和小核。其中大核運行短時間的高性能需求任務;小核運行低性能需求的任務或者在待機狀態支持背景任務運行。目前,除了蘋果自研處理器內核以外,以高通、海思、聯發科為首的安卓智能機SoC芯片設計企業都采用Cortex-A7x和A5x搭配作為內核集合(cluster)配置。其中,高通和華為會在架構上做不同程度的優化。

      相比Cortex-A處理器內核,Cortex-M處理器內核被設計成面積更小,能效比更高。通常這些處理器的流水線很短,設計簡單,最高時鐘頻率很低,功耗表現優異。Cortex-M系列在目前智能互聯時代應用前景非常廣闊,覆蓋智能測量、人機接口設備、汽車和工業控制系統、大型家用電器、消費性產品和醫療器械等應用需求,Cortex-M在目前全球32位MCU市場占據主導地位。Cortex-R處理器是面向實時應用的高性能處理器系列,運行在比較高的時鐘頻率,其響應延遲非常低。主要應用于硬盤控制器,汽車傳動系統和無線通訊的基帶控制等領域。半導體ARM助力國產芯片質與量雙擊,收購案或刺激自主可控提速

      根據CINNO Research發布的最新數據顯示,2020年上半年,國內市場智能機銷量約1.4億部,其中華為(含榮耀)市場份額達到40.2%。另據市場調研機構Counterpoint發布的報告顯示,2020Q2海思麒麟芯片占據41%的國內智能手機芯片市場份額,成為國內第一。同時,海思麒麟芯片在全球智能機芯片市場份額提升到16%,超過蘋果和三星。近年來華為手機質和量形成雙擊,特別是旗艦手機得到全球市場廣泛認可。除去全球疫情蔓延和美國打壓帶來的國貨消費潮等偶然因素,我們認為內在主因是基于硬件上的自主創新獲得的用戶體驗提升和形成差異化競爭。搭載ARM處理器的華為海思自研的麒麟芯片是一系列硬件創新的核心之一。

      半導體產業fabless+foundry+OSAT分工體系從工程上成就了包括麒麟芯片在內的海思芯片的成功。華為對海思不斷持續巨額投入帶來的芯片設計能力提升成功對接全球最先進的制程工藝和封裝工藝。而在芯片設計領域,ARM的處理器IP授權模式成為歷代麒麟芯片成功的重要因素之一。

      ARM的授權模式對麒麟芯片積極影響有以下幾方面:

      一是在創業初期,ARM的授權模式可以幫助作為后發者的海思在處理器內核性能上直接拉到和安卓陣營競爭對手同一個層級。

      二是對于ARM在智能手機領域的主導地位,使海思自研手機芯片能夠借助ARM完善的生態,幫助華為手機快速進入主流智能機市場。

      三是基于消費電子市場的特點,ARM的處理器授權有效縮短了包括海思在內的企業開發周期和成本。

      除了基于ARM公版內核架構開發芯片以外,華為已經具備基于ARM指令集架構的處理器內核開發能力。海思在麒麟990官方發布和配置表都宣稱為使用“基于A76”(A76 Based)內核,顯示海思已經對ARM處理器內核和指令集有深入了解,掌握了自行對架構修改的能力。

      2019年1月,華為跟進一步發布自研服務器芯片鯤鵬920。該服務器芯片搭載了64顆海思基于ARMv8架構自研的泰山內核。整體服務器性能較市場現有競品提升20%。2019年5月,華為宣布獲得ARMv8架構永久授權,并且強調華為海思有持續自行開發設計基于ARM授權架構的處理器。

      近年來,智能手機SoC以外的國產智能終端SoC芯片也借助Cortex-A系列處理器IP逐步實現國產替代。國產搭載ARM架構處理器的SoC涵蓋了智能高清機頂盒、IPC、網絡攝像頭、車載娛樂信息設備等。根據格蘭研究院數據,2018年華為海思和晶晨股份(688099,無評級)分別占據國內60.7%和32.6%的IPTV/OTT機頂盒芯片市場。而在2013年,歐洲芯片巨頭意法半導體還占據國內機頂盒芯片市場30%以上。在安防領域,以海思為代表的國內廠商已經實現IPC芯片實現低端替代到全檔次布局。

      根據IC Insights數據,2019年MCU全球銷售額為164億美元。產品主要用于汽車電子、工控/醫療、計算機網絡和消費電子等領域,占比分別為33%、25%、23%和11%。IC Insights同時預計MCU在經歷2019年和2020年下滑后,將在2021年出現溫和復蘇,銷售額將增長5%至157億美元,其次是2022年將同比增長8%,2023年將同比增長11%。屆時MCU收入將創下188億美元的新高。全球MCU市場主要由瑞薩電子(日本)、恩智浦(荷蘭)、英飛凌(德國)、微芯科技(美國)、三星電子(韓國)、意法半導體(意法)、賽普拉斯(美國)占據。

      根據HIS和ASPENCORE數據,2019年中國MCU市場規模達到256億人民幣。中國MCU應用市場主要集中在家電/消費電子、計算機網絡、汽車電子、智能卡、工控等領域,市場占比分別為25.6%、18.4%、16.2%、15.3%和11.2%。受益于國內物聯網和新能源車行業的增長領先于全球,中國MCU市場規模在2008年到2018年間CAGR為7.2%,領先全球。同時,HIS預計2022年,中國MCU市場規模將達到319億人民幣,增速繼續超過全球。預計2020年國產MCU廠商的銷售額將達到148億元人民幣,占整個中國MCU市場的55%。ARM Cortex-M處理器助力國內廠商卡位MCU市場的價值鏈上游。目前,國內MCU廠商在消費電子、智能卡和水電煤氣儀表等中低端應用領域實現國產替代。隨著物聯網終端需求推進,物聯網時代任務的復雜化對計算能力的要求將使MCU往16或32位設計。32位MCU是基于未來物聯網的市場發展方向。既滿足廠商上述要求又具有豐富生態系統資源的ARM Cortex-M系列處理器內核成為32位MCU內核市場主導。兆易創新、中穎電子等國內MCU廠商也紛紛借助基于ARM Cortex-M系列處理器的32位MCU積極布局國內中高端市場,向產業價值鏈上游卡位。國產32位MCU已經開始進入國外傳統廠商所壟斷的高端MCU市場。

      作為國產IC設計領軍企業,兆易主要提供基于ARM Cortex-M系列32位通用MCU產品,其GD32是ARM?Cortex-M3及Cortex-M4內核通用MCU產品系列,也是目前中國32位通用MCU主流產品,廣泛應用于工業自動化、人機互動、電機控制、安防家弄、智能家居家電及物聯網等領域。根據公司2020年中報,兆易MCU產品包括330余個產品型號、23個產品系列和11種不同封裝類型,累計出貨已超過4億顆。2020年7月,兆易創新發布基于全新Arm Cortex-M33內核的GD32E5系列高性能微控制器,確定以無線連接、電池供電設備以及便攜式、可穿戴設備、汽車級MCU幾大方向的產品路線。

      三、ARM演進及V8架構

      https://developer.arm.com/docs

      1、ARM架構演進:命名規則和位寬

      ARM演進概述:

      ARM架構的演變過程是從ARMv4, ARMv5, ARMv6, ARMv7, ARMv8-A

      其中芯片的命名從ARM11開始使用新的命名規范Cortex,比如現在最新的高通SM865使用的是ARMv8-A架構,Cortex-A77的core

      ARMv4到ARMv7都是只支持32位,從ARMv8-A開始支持64位,就是我們常說的AArch64。同時ARMv8也為了兼容ARMv7的應用,也支持32位

      虛擬化(Virtualization)也是在ARMv7后面開始引入,在ARMv8-A已經開始全面支持

      TrustZone技術在ARMv7和ARMv8已經大范圍使用

      2、ARMv8-A架構:6個主要模塊

      那ARMv8-A都包含了那些模塊呢? 我們以Cortex-A57舉例

      主要涉及的模塊有:

      ARM CoreSight 技術,用于debug使用

      Generic Interrupt Controller(GIC)中斷控制器

      Memory Protection Unit(MMU)MMU用于將虛擬地址轉化為物理地址

      每個Core中都有一個L1 指令和數據Cache,一般每四個core會在一個Cluster中的

      存在一個L2 cache

      多個core可能通過Coherent Bus通信

      3、ARMv8 Cluster:設計參考架構((Core(L1I/L1D)-*4+L2)-->Cluster)+AMB Coherent Bus

      這是一個多個Cluster的設計圖

      可以看到一個Cluster中每個core都有一個L1 Cache,一個Cluster存在一個L2cache用于多個core之間共享數據。而多個Cluster通過AMB Coherent Bus總線溝通交流。

      4、ARMv8-A/v7架構區別:地址空間4GB/256TB,EL0-3/物理隔離,通用寄存器15-30

      ARMv8-A相對于ARMv7架構區別:

      在ARMv7架構下只能訪問最大4GB的地址空間,而在ARMv8-A可以訪問更大的地址空間。

      ARMv7只支持4KB的page,在ARMv8-A下可以支持多種頁類型(4K,16K, 64K),地址范圍【32, 48】最大48位

      所以ARMv8-A架構下下應用程序可以訪問更大的虛擬地址空間

      ARMv8-A首次引入了Exception Level的概念,在ARMv7下使用的是PL0, PL1, PL2。 而在ARMv8-A下使用的是EL0-EL3

      ARMv8-A增加了通用寄存器的數量,可以減少函數棧的大小。ARMv8-A下使用了30個通用寄存器,ARMv7下只有15個通用寄存器

      ARMv8-A增加了TLB的大小,減少TLB MISS的概率

      ARMv8-A架構完全支持ARMv7架構下的應用程序

      等等等

      以及以下幾個模塊

      ARMv8-A下通用寄存器和ARMv7通用寄存器做對比

      ARMv8-A新引入的Exception Level

      ARMv8下的異常

      ARMv8下Memory,MMU, LTB

      ARMv8下GIC,中斷

      5、ARMv8架構特性總結

      ARMv8架構,引入了Execution State、Exception Level、Security State等新特性,是目前ARM架構變動最大的一次,具體來說:

      1,A64:Large memory

      對于Large memory的需求也可通過Large Physical Address Extensions (LPAE) 技術,雖然可以支持高達40bits的物理地址空間,但受限于32-bit的指令集,虛擬地址空間依舊只有32bits(4G),定義64-bit的指令集(A64)。向前兼容32-bit指令集(A32和T32)。

      2,安全:?物理(內存)上的區隔

      在ARMv7 security extension的基礎上,兼容TrustZone架構,新增security model。它不同于privilege level等軟件邏輯上的保護,而是一種物理上的區隔,即不同security狀態下,可以訪問的物理內存是不同的。在Security狀態下,處理器可以訪問所有的Secure physical address space以及Non-secure physical address space;在Non-security狀態下,只能訪問Non-secure physical address space。

      3,虛擬化:完整硬件虛擬化/指令集/異常處理/MMU/IO

      在ARMv7 virtualization extension的基礎上,提供完整的virtualization框架,從硬件上支持虛擬化。包括指令集虛擬化、異常處理虛擬化、MMU虛擬化、IO虛擬化。

      4,EL:?4個Exception level,體現了安全防御的思想(上一級處理)

      定義AArch64和AArch32兩套運行環境(稱作Execution state),分別執行64-bit和32-bit指令集。使用exception level,替代了processor mode、privilege level等概念。

      ARMv8 定義了4 個 Exception level,簡稱 EL0-EL3。同時Exception level 包含了 privilege 概念。

      AArch64中,已經沒有User、SVC、ABT等處理器模式的概念,由于向前兼容,在AArch32中,就把這些處理器模式映射到了4個Exception level。如上圖所示。

      當異常發生時,有兩種選擇,停留在當前的EL,或者跳轉到更高的EL,EL不能降級。同樣,異常處理返回時,也有兩種選擇,停留在當前EL,或者調到更低的EL。應用位于特權等級最低的EL0,Guest OS(Linux kernel等)位于EL1,提供虛擬化支持的Hypervisor位于EL2(可以不實現),提供Security支持的Seurity Monitor位于EL3。這里面體現了安全防御的思想,即出現異常事件必須由逐級由上一級EL處理。

      四、ARM?v9架構

      1、支持SVE2和矩陣乘法

      自 2011 年 10 月 Arm 首次公布 Armv8架構以來,已經有近 10 年的時間了,這是計算領域相當多變的10 年,因為指令集架構通過移動領域到服務器領域的應用日益廣泛,如今已開始在筆記本電腦和即將到來的臺式機等消費設備市場上普及。

      這些年來,Arm 對 ISA 進行了各種更新和擴展,其中一些重要的內容,有些也許很容易被忽略。但不管如何改動,都是基于ArmV8架構基礎之上的。所以,大家也都在翹首等待Arm最新的ArmV9架構的到來。

      今天,作為Arm的Vision Day活動的一部分,該公司終于宣布了全新Armv9架構的首個細節,為Arm公司希望在未來十年成為下一個3000億芯片的計算平臺奠定基礎。

      2、Armv9 與 Armv8 :安全、AI 以及改進矢量擴展和 DSP 能力

      讀者可能會問自己一個最大的問題,那就是Armv9與Armv8到底有什么區別,才會在ISA的命名上有如此大的跳躍。說實話,單純從ISA的角度來看,v9可能并不像v8比v7那樣是一個根本性的跳躍,v8曾用Arch64引入了完全不同的執行模式和指令集,而Arch64比Arch32有更大的微架構影響,比如擴展寄存器、64位虛擬地址空間等許多改進。

      Armv9延續了 AArch64 作為基準指令集的使用,然而在功能上增加了一些非常重要的擴展,值得在架構編號上做一個增量,可能讓 Arm 也實現了一種軟件的重新壘砌,不僅是新的 v9 功能,也包括我們這些年看到的各種 v8 擴展的發布。

      EETOP了解到,Armv9 擁有三大新支柱,Arm 認為新架構的主要目標是:安全、AI 以及改進矢量擴展和 DSP 能力。安全性是 v9 的一個非常大的話題,我們將更深入地討論新的擴展和特性的新細節,但首先應該直接了解DSP和AI特性。

      新的Armv9兼容CPU所承諾的最大的新功能可能是開發人員和用戶可以立即看到的,它是SVE2作為NEON的后繼產品的基礎。

      可擴展矢量擴展(Scalable Vector Extensions,簡稱SVE)的首次實現是在2016年宣布的,并首次在富士通的A64FX CPU內核中實現,目前正用于為日本世界第一的超級計算機Fukagu。。SVE的問題在于,這個新的可變向量長度 SIMD 指令集的首次迭代范圍相當有限,而且更多的是針對 HPC 工作負載,缺少了許多通用性較強的指令,而這些指令仍然被 NEON 所覆蓋。

      SVE2 早在 2019 年 4 月就公布了,希望通過補充新的可擴展 SIMD 指令集所需的指令來解決這個問題,以服務于目前仍在使用 NEON(指 128 位 SIMD 單指令多數據擴展結構)的更多樣的 DSP 類工作負載。

      SVE 和 SVE2 除了增加各種現代 SIMD(單指令多數據)能力之外,好處在于它們的可變向量大小,從 128b 到 2048b 不等,允許可變 128b 粒度的向量,而不管實際硬件運行在什么地方。純粹從矢量處理和編程的角度來看,這意味著軟件開發者只需要編譯一次代碼,如果未來 CPU 會出現比如原生 512b 的SIMD 執行流水線,代碼就已經可以利用單位的全部寬度了。

      另外,同樣的代碼也能在更保守的設計上運行,并具有更低的硬件執行寬度能力,這對 Arm 公司來說非常重要,因為他們設計了從物聯網、移動設備到數據中心的 CPU。此外,它還能在 Arm 架構的 32b 編碼空間內完成所有這些工作,而在 x86 上的其他實現則必須根據向量大小增加新的擴展和指令。

      機器學習也被視為Armv9的重要組成部分,因為Arm認為未來幾年越來越多的ML工作負載將變得普遍。在專用加速器上運行ML工作負載自然仍將是性能或能效關鍵的任何要求,然而,仍將有大量新的較小范圍的ML工作負載將在CPU上運行。

      矩陣乘法指令是這里的關鍵,并將代表著在整個生態系統中看到更大規模采用的重要一步,作為 v9 CPU 的基礎功能。

      一般來說,SVE2 可能是保證跳轉到 v9 命名法的最重要因素,因為它是一個更明確的 ISA 功能,在日常使用中區別于 v8 CPU,這將保證軟件生態系統去實際分化現有的 v8 堆棧。這其實已經成為Arm在服務器領域的一個相當大的問題,因為軟件生態系統仍然是以v8.0為基礎的軟件包,可惜缺少了最重要的v8.1大系統擴展。

      讓整個軟件生態系統向前發展,并且能夠假設新的v9硬件具有新架構擴展的能力,這將有助于推動事情的發展,可能會解決目前的一些情況。

      然而v9不僅僅是SVE2和新的指令,它還有一個非常大的重點就是安全,在這里我們會看到一些比較徹底的變化。

      3、具有保密功能的計算架構

      在過去的幾年中,我們已經看到安全性和硬件安全性漏洞已成為新聞的頭等大事,例如Spectre,Meltdown等許多漏洞,以及它們所有同級的側信道攻擊都表明,對安全性的根本需求是重新思考如何處理安全性。Arm希望解決這一總體問題的一種方法是通過引入Arm機密計算體系結構來重新設計安全應用程序的工作方式。

      在繼續之前,先提醒一下,今天的披露僅僅是對新CCA運作方式的高層解釋,Arm表示,有關新安全機制的確切工作原理的更多細節將在今年夏天晚些時候公布。

      CCA的目標是從當前的軟件堆棧情況中獲得更大的收益,在當前的軟件堆棧情況下,在設備上運行的應用程序必須固有地信任它們所運行的操作系統和虛擬機管理程序。傳統的安全模型是基于以下事實建立的:更高特權的軟件層被允許并能夠查看較低層軟件的執行情況,,然而當操作系統或系統管理程序被以任何方式損害時,這就可能成為了一個問題。

      CCA引入了動態創建““realms”的新概念,可以將其視為對OS或虛擬機管理程序完全不透明的安全容器化執行環境。系統管理程序將仍然存在,但僅負責調度和資源分配。而“realm”將由稱為“ealm manager”的新實體管理,其被認為是一段新的代碼,大約只有管理程序的1/10大小。

      realm內的應用程序將能夠“證明”realm管理器以確定其是否可信任,這對于傳統的虛擬機管理程序而言是不可能的。

      Arm并沒有深入探討究竟是什么造成了realm與操作系統和虛擬機管理程序的非安全世界之間的這種隔離,但聽起來確實像硬件支持的地址空間,它們無法相互交互。

      使用領域的優勢在于,它極大地減少了設備上運行的給定應用程序的信任鏈,并且OS對安全性問題變得越來越透明。與當今需要企業或企業使用帶有授權軟件堆棧的專用設備的情況相反,需要監督控制的關鍵任務應用程序將能夠在任何設備上運行。

      MTE并不是v9的新功能,而是隨v8.5一起引入的,MTE或內存標簽擴展旨在幫助解決全球軟件中兩個最持久的安全問題。緩沖區溢出和無用后使用是持續的軟件設計問題,在過去的50年中,這些問題一直是軟件設計的一部分,要識別或解決它們可能要花費數年時間。MTE旨在通過在分配時標記指針并在使用時進行檢查來幫助識別此類問題。

      4、未來 Arm CPU路線圖

      雖然這與v9沒有直接關系,但是與即將到來的v9設計的技術路線圖緊密相關,Arm還談到了有關他們在未來2年中對v9設計的預期性能的一些觀點。

      Arm表示,與幾年前2016年的Cortex-A73相比,移動領域今年的X1設備性能提升了2.4倍(我們這里說的是純ISO進程設計的IPC)。

      有趣的是,Arm還談到了Neoverse V1設計,以及他們如何實現2.4倍于A72級設計的性能,并披露他們預計今年晚些時候將發布第一批V1設備。

      對于代號為Matterhorn和Makalu的下一代移動IP核,Arm披露這兩代產品預計IPC總增益將達到30%,不包括SoC設計人員可能達到的頻率或任何其他額外性能增益。這實際上代表了這兩款新設計的14%的代際增長,正如幻燈片中的性能曲線所示,這表明相對于Arm在A76之后的幾年里所做的改進正在放緩。盡管如此,該公司表示,發展速度仍然遠遠超過行業平均水平。

      Arm還提供了一張很有意思的PPT,該PPT旨在關注系統側對性能的影響,而不僅僅是CPU IP性能。從這里提供的一些數據可以看到,例如每5ns的內存延遲中有1%的性能,但Arm在這里也指出,如果專注于通過改善內存路徑、增加緩存或優化頻率能力來改善實現的其他各方面,CPU的性能可以被壓榨出整整一代。我認為這是對目前SoC廠商保守做法的隱晦抨擊,他們沒有充分利用X1核心的預期性能余量,隨后也沒有達到新核心的預期性能預測。

      Arm仍然認為CPU是未來最通用的計算塊。雖然專用加速器或GPU會有其一席之地,但它們很難解決可編程性、保護性、普適性(本質上能夠在任何設備上運行)以及正確工作的成熟能力等重要點。目前,計算生態系統的運行方式極其分散,不僅設備類型不同,設備廠商和操作系統之間也存在差異。

      SVE2和矩陣乘法可以極大地簡化軟件生態系統,讓計算工作負載向前邁進一步,采用更統一的方法,未來可以在任何設備上運行。

      最后,Arm對Mali GPU的未來有一個新的信息,披露了該公司正在研究VRS,特別是Ray Tracing等新技術。后一點聽起來頗為令人驚訝,也預示著AMD和Nvidia推出RT的桌面和游戲機生態系統的推動,也有望推動移動GPU生態系統向RT發展。

      5、Armv9設備將在2022年初面世

      今天的公告是以一種極其高級的形式發布的,我們預計Arm會在未來幾個月公司慣常的年度技術披露中更多地談論Armv9的各種細節以及CCA等新特性。

      總的來說,Armv9似乎是一個混合體,一方面是更根本的ISA轉變,SVE2可以看作是,另一方面是對軟件生態系統的總體重新梳理,以匯總過去十年的v8擴展,并為下一個十年的Arm架構打下基礎。

      Arm在去年年底就已經談到了Neoverse V1和N2,我確實預計N2至少會作為v9設計最終亮相。Arm進一步披露,預計今年會有更多的Armv9 CPU設計亮相,很可能是移動端Cortex-A78和X1的繼任者,新的CPU很可能已經被一般的SoC廠商扎堆,預計2022年初就能在商用設備上看到。

      6、華為是否可用?

      由于美國的霸權行為,目前華為先進芯片已經無法獲得代工支持了,但是對應后續芯片的研發華為應該不會放棄。

      但是華為是否可用最新的基于Armv9架構?

      早在2019年9月25日,ARM全球負責芯片授權的IP產品事業群總裁熱內·哈斯(Rene Haas)曾明確表示,華為和海思是ARM的長期合作伙伴,后續的芯片架構都可以授權給華為海思。

      哈斯表示,在2019年5月美國政府將華為列入實體清單后,ARM對公司產品進行了厘清,目前有了一個明確結論,即無論是目前的V8架構,還是后續新的芯片架構,都是基于英國技術開發,不會受美國出口管制影響,可以授權給華為海思。由此看來只要ARM沒有被美國公司英偉達所收購的化,Armv9架構授權給華為還是應該問題不大的。

      五、結語

      作為華為生態體系成員,我們認為,華為已經具備了端到端的能力,包括:指令集架構、微內核、處理器、SOC,以及操作系統、數據庫、編譯器、數學庫、人工智能框架...等等全棧軟件。

      如果局勢所迫、不得不的話,華為及其生態體系伙伴,完全有能力自主創建一個新的計算生態!

      我們所有的千千萬萬的從業人員,經過這幾十年努力,在方方面面有所準備,未來無所畏懼! 無所謂!

      (致謝ARM、馭勢資本、EETOP...等原編著者)

      ARM IoT

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:WPS表格快速刪除無規律數據有妙招,你知道嗎?(wps表格怎么快速刪除大量的空白格)
      下一篇:PPT的表格怎么添加自動求和公式?(PPT表格如何求和)
      相關文章
      亚洲精品无码你懂的| 亚洲一卡2卡三卡4卡有限公司| 亚洲黄黄黄网站在线观看| 亚洲自偷自偷在线成人网站传媒| 亚洲欧洲日产国码无码网站| 色窝窝亚洲AV网在线观看| 亚洲中文字幕乱码AV波多JI| 亚洲中文无码av永久| 亚洲AV综合色区无码二区爱AV| 亚洲国产亚洲片在线观看播放| 亚洲国产成+人+综合| 亚洲熟妇av一区| 亚洲伊人久久大香线蕉影院| 亚洲av永久无码精品三区在线4| 亚洲午夜久久久精品电影院| 亚洲免费网站在线观看| 亚洲一区中文字幕在线电影网| 456亚洲人成影院在线观| 亚洲人av高清无码| 国产亚洲高清在线精品不卡| 亚洲成AⅤ人影院在线观看| 亚洲人成国产精品无码| 亚洲综合图色40p| 亚洲国产第一站精品蜜芽| 亚洲日本中文字幕区| 亚洲国产精品综合一区在线| 亚洲国产日韩女人aaaaaa毛片在线| 亚洲综合久久1区2区3区| 亚洲一区二区三区在线网站| 亚洲日韩一区二区一无码| 国产亚洲欧美日韩亚洲中文色| 亚洲午夜福利在线视频| 久久亚洲AV成人无码国产电影| 亚洲av无码天堂一区二区三区| 亚洲日本在线观看视频| 国产l精品国产亚洲区在线观看| 亚洲国产成人久久精品动漫| 亚洲午夜久久久久久尤物| 亚洲国产精品无码久久98| 亚洲精品无码你懂的网站| 亚洲成av人片天堂网|