《基于Unity與SteamVR構建虛擬世界》 —1.7.5 期待哪些體驗
911
2022-05-29
大家下午好,非常榮幸參加 LVS 首屆音視頻線上峰會。先自我介紹一下,我叫左雯,來自華為云,是云視頻服務的產品經理。在做產品經理之前,一直從事視頻編解碼算法研究優化、轉碼產品架構設計等工作!今天參加這個專題目的有兩個,一個是想通過這次峰會,向大家分享一下華為云視頻云對下一代視頻編碼技術發展的想法和應用成果,另一個是向各位專家學習,相互交流,促進下一代視頻編碼技術的快速發展,推動視頻云這個行業的發展。
今天分享的主題包括三個部分,首先是華為云視頻云對視頻行業發展趨勢的一些看法,以及這些趨勢對下一代視頻編碼技術提出的挑戰;其次從標準角度來介紹下一代視頻編碼技術;最后從視頻云應用角度來具體介紹華為云在視頻編碼技術上的一些實踐和探索,希望能給大家帶來啟發。
1. 視頻行業趨勢
5G、云、AI 已經成為 ICT 行業甚至是整個社會的發展趨勢,促使整個視頻行業需求和技術不斷演進,推動整個視頻行業不斷升級。視頻生命周期的每個環節都在更新升級,包括視頻生產、視頻處理、視頻傳輸和視頻消費。
視頻生產:多源數據的采集,包括超高清、VR、自由視角、3D 建模和視頻渲染
視頻處理:基于 AI 讓視頻處理更實時、智能和準確,包括各種編碼方式
視頻傳輸:超低時延的傳輸,云邊協同等等
視頻消費:智能終端的深度結合提供視頻服務的最佳體驗
視頻行業本質是對媒體數據的處理,背后是算力、存儲、網絡、AI 的支撐,同時視頻行業又推動著5G、云、AI 的不斷前行,相輔相成!
視頻演進帶動了算力、存儲、帶寬需求的大幅增長。簡單來看,視頻分辨率越來越高,從高清到超高清再到8K/VR。算力增長 24 倍,存儲增長12 倍,帶寬增長 20 倍。這些需求通過云,也只有通過云才能得到很好的滿足,實現高質量的視頻體驗。云原生視頻是行業趨勢,視頻將成為云的基礎服務能力。
前面說的是行業的整體趨勢,下面說一下具體場景。互聯網視頻發展已經歷了兩個階段,第一階段從08 年到13 年,以長視頻 VOD、點播觀看為熱點;第二階段,從13 年到19 年,也就是去年,其實還在延續,以直播、短視頻為熱點;第三階段,也就是下一代,會以什么為熱點? 我們認為因為5G、云、AI 的推動,視頻將進入實時互動、VR/AR 時代。
視頻新玩法提出新訴求,互動視頻方式從 IM 向實時音視頻過渡。直播連麥、主播 PK、直播帶貨、視頻分發方式的升級,百毫秒級超低時延下一代視頻 RTC 成為趨勢;VR/AR,360 度視角沉浸式體驗革命,用戶從看視頻向玩視頻過渡,體驗提升的同時,視頻傳輸能力從兆級向十兆甚至百兆級單流帶寬;云游戲帶來游戲行業變革,十毫秒級別時延要求,推動媒體處理能力從云上向邊緣遷移。
RTC 實時音視頻會成為5G 時代基礎設施的核心控制點,RTC 應用很廣泛,它的市場年增長率超過30%,而且這項技術不僅能賦能直播、游戲等泛娛樂行業,更能在在線醫療、教育、金融等大視頻行業滲透。
現有的實時音視頻市場正處于爆發期,玩家很多,但由于它是非云廠商,難以持續發展。原因之一是它的技術門檻比較高,特別是像音視頻編碼或者整個 RTC 網絡的構建,另一點是目前各家均采用私有協議的方式接入,各家互通、客戶的自由切換都比較困難。在 RTC 業務產品上,我們認為音視頻編碼處理將是各家構建技術壁壘和性能差異化競爭力的關鍵之一。
另外一個應用場景就是 Cloud VR,我們一直認為 VR 是5G 技術發展下的關鍵場景。VR 發展是一波三折的,但在目前來看,之前碰到的一些問題正在逐漸改善。從終端的角度來看,之前的終端很貴,但是目前千元終端機已經逐漸來臨,而且體驗也會越來越好。除了設備終端,VR 此前還面臨內容缺失的重大問題,而 VR 直播很大程度上緩解了內容缺乏的問題。
雖然困境在逐步改善,但 VR 目前還面臨著新的問題。互聯網 VR 業務很難形成商業閉環,主要原因在于 VR 業務帶來了收入增加,但與此同時帶寬成本增加更多,VR 追求的高質量體驗需要通過更高帶寬來實現,高帶寬勢必會帶來高成本,而高成本就會導致商業無法閉環。
在這樣的前提下,很多玩家都會通過降低體驗來開展 VR,比如說內容采用4K 以下,碼率采用10 兆以下,終端采用卡片機來體驗 VR,雖然這樣可以將 VR 的業務打通,但體驗效果是很差的,也導致付費用戶非常少,產業發展比較緩慢。所以在 VR 的發展上,我們認為通過視頻壓縮編碼以降低帶寬是關鍵,是可以幫助實現商業閉環的一個關鍵要素。
從前面講述視頻行業趨勢不難看出,用戶體驗升級、視頻產業升級、商業成本等驅動著視頻全方位升級,分辨率從高清到8K,幀頻從30 幀到120 幀,視場角從不到90 度到360 度,從 SDR 到 HDR 等,這些參數升級推動著視頻壓縮編碼技術不斷演進,追求壓縮比是永恒不變的!
另外,前車之鑒,HEVC/H.265,其實是很優秀的編碼技術,但因為前期不友好的專利政策,市場占有率一直不高于13%。還好目前有所好轉!整個行業急需壓縮比更高、生態更完善、專利政策更合理的視頻編碼技術。
提升壓縮比有兩條路線,這也是各廠商正在做的:
標準技術路線,作為基礎內核,H.266、AV1、AVS3、AI 編碼
非標技術路線,依賴基礎標準,結合人眼感知特征,感知編碼、內容編碼、ROI 編碼
2. 下一代視頻編碼技術
下面將從這兩個角度來介紹華為云視頻在下一代視頻編碼技術上的一些工作。這些技術得益于華為2012 媒體技術院全力支持。
2.1 下一代視頻編碼標準技術
從上圖可以看出,下一代的視頻編碼標準大概分為三個陣營或者三個類型:
國際標準:由 MPEG、VVC 聯合推動的像 VVC/H.266還有 EVC。
國內標準:國內標準組織正在推出或已經推出 AVS3 的 phase1、AVS3 的 phase2,兩者主要差別在于 AVS3 第1 階段標準瞄準 H.266,第二階段的標準則是瞄準未來, 可能會加入一些智能編碼的技術。
谷歌牽頭的 AOM 聯盟推出的 AV1,是一個開源技術。
下一代的視頻編碼技術仍是采用傳統的演進思路——在經典架構上做模塊增強。在H.266CFP 時,華為聯合其他幾家公司提了 P41 提案,在 PSNR 和 MOS 評估方面都是排名第一,這個提案也是后面的基礎。華為在 VVC 里的核心專利數量已屬于第一陣營,這是一個了不起的成就,也說明了國內的視頻壓縮編碼基礎研究實際上不弱于歐美傳統的公司。
以 VVC 為例,對其新增的增強工具進行盤點。縱軸是每個工具的壓縮收益,橫軸是每個工具編解碼復雜度,編碼復雜度的權重可能會更高一點。VVC 在塊劃分、幀內預測、幀間預測、熵編碼、變換量化等多個模塊上進行了增強,其中主要的增強是幀內、幀間預測、塊劃分、濾波的增強以及機器學習工具演進帶來的收益。VVC 暫時沒有引入深度學習這一類編碼工具。
圖中還有三個用紅圈標出來的工具,這是 VVC 中公認 trade off 比較好的三個工具點。藍色的是 ALF,這是大家比較熟悉的自適應環路濾波,其實它在 H.265的時代就已經有了, H.266 將它引入標準中;綠色的是仿射運動預測,這個主要是由華為提出的;橙色的是量化技術。
EVC 標準的提出某種程度是因為 H.265/H.266的專利政策不友好,有可能導致 H.266 的落地都比較困難。MPEG 希望能通過一個新的專利友好的標準來推動落地,同時也促使改變 H.266、H.265 的專利授權政策。EVC 由華為、三星、高通等共同提出推動,華為在這里面加入了很多技術。在標準立項時期望它比 H.265 的壓縮性能提升20%,實測在4K 娛樂視頻上相比 H.265 壓縮效率提升達30% 以上,目前已經進入了最終的標準投票階段。
AVS3 是國內提出的標準,它的 phase1 是瞄準 H.266 標準的,并且在2019 年3 月份就已經制定完成率先推出,在2019 年9 月份,華為海思也同步推出了 AVS3 8K 的解碼芯片,AVS3 相對H.265 性能提升了20% 以上,并且針對娛樂視頻和監控視頻做了很多針對性的設計,性能上還可進一步提升。
H.266 實際已經基本定稿,它的壓縮效率在4K 視頻場景下相較于 H.265 能提升40% 左右,其解碼復雜度相對提升60%,目前看最大的問題還是專利政策不夠透明,而且專利費可能比較高,推廣節奏可能相對比較慢。
EVC 也基本定稿, 而且其壓縮效率也能提升30% 左右,解碼復雜度相對 H.265 增加60%。其專利收費可能相對比較低,第二是他的專利收費比較透明和明確,目前主要依靠三星、華為、高通來做產業的推動和生態的構建。
AVS3 在2019 年3 月份推出,在性能上還是有保證的,壓縮效率能夠提升25%,復雜度增加相對較低,其專利收費也是比較低的,正通過互聯網等行業做產業的推動和生態構建,目前實際上有很多聯盟和公司正在做推動,我們也希望 AVS3 盡快落地。
表格中沒有列舉 AV1 的數據,這主要是因為它和其他三個標準不太一樣,AV1 開源軟件實際上是瞄準商用化去做的,大家也比較清楚其壓縮效率和解碼復雜度。AV1 有個很大的優勢就是沒有專利費,這是 AOM 聯盟的承諾。在產業落地方面 AV1 做的很好,生態構建走的較前。
2.2 AI編碼
下一代視頻編碼標準還有一個趨勢就是 AI 編碼,這一塊實際上從 HEVC、VVC 標準制定就有提出,但因為考慮計算復雜度以及 AI 硬件普適性,都暫時擱置了。但這是個技術趨勢。
AI 編碼包括兩個演進思路:
第一個是全新架構,類似于圖像編碼,實際上 AI 的圖像編碼已經取得了不錯的成效,谷歌牽頭的 AI 圖像編碼技術都已經得到了很好地應用,但針對視頻中的應用還在探索過程中。所謂的全新架構,就是不用傳統架構,視頻進入黑盒后會得出一個壓縮過的視頻,這個視頻可能沒有塊劃分,也沒有各種其他的方式,它的壓縮效率會非常高,但這一切還處于研究的過程中。
另外一個思路是基于經典架構,對每個架構里的模塊做增強。例如針對塊劃分、變換、矢量量化、幀內預測做不同的 AI 網絡適應和增強。實際上華為也在做這方面的研究,未來可能會提出一些 AI 編碼方面的論文或提案。并且我們認為 AI 編碼的這兩種思路,最終將是融合設計的過程,不會呈相互孤立的狀態。
3. 華為云視頻應用和實踐
3.1 云視頻簡介
上面簡單介紹了下一代視頻編碼標準技術,下面介紹一下從實際商用及非標角度,介紹一下華為云視頻在視頻編碼技術上的應用和實踐。
首先介紹一下華為云視頻,華為云視頻是從2017 年開始構建的,目前包括兩大類業務,一種是比較傳統的直播、點播、媒體處理以及監控業務,另一種是整個行業正在新晉的服務,比如 RTC、VR/AR 以及超高清直播。華為云視頻面向很多的場景,例如娛樂直播、短視頻、在線教育、企業直播、4K 直播、4K 制作等等,我們致力于幫助行業客戶、伙伴、開發者、ISV 快速上線應用,并幫他們構建差異化的競爭力,實現商業閉環。這里需要重點提一下 RTC,RTC 是華為云視頻對下一代視頻的理解并作出了實際的推動,針對 RTC,我們重點構建超低時延、音視頻質量等差異化競爭力。
3.2 視頻編碼技術
3.2.1視頻編碼框架
結合今天的主題,下面重點講解華為云視頻在視頻編碼技術上的一些工作。這些技術得力于華為2012 媒體技術院全力支持。編碼內核采用了一個標準的編碼器,類似于前面提到的 H.264、H.265、AVS3、H.266 或者 EVC 這一類,在這個編碼內核的基礎上,我們面向不同的場景做了不同的編碼技術的優化和實踐。比如面向 RTC 實時音視頻場景,采用低時延編碼技術;面向 VR 場景,采用 FOV tile 編碼;面向多視角場景,采用空間云邊協同編碼;面向監控場景,采用智能語義編碼;面向直播、點播,采用感知編碼和畫質增強等;另外,華為云視頻借助鯤鵬、昇騰兩大專有硬件,加速視頻編轉碼效率。鯤鵬主要面向 CPU 這類計算,昇騰主要面向 AI 方面的加速。
3.1.2標準編碼內核
接下來分別介紹一下視頻編碼的技術,第一是編碼內核,華為云在商用編碼器上面也有很多的技術積累。比如說近幾年在 MSU 的大賽上,HW265 編碼器連續兩年獲得多項測評的第1 名,今年我們也會向 MSU 推出新的編碼器。
3.2.3 高清低碼
第二個技術是高清低碼,高清低碼目前在各個廠商或者商業領域里是大家比較默認的技術,也就是說在基于標準編碼內核的基礎上,能降低碼率的同時保證主觀質量沒有下降,但實際上高清低碼理論可行性是現有視頻編碼是基于香農定理,它的率失真模型都是連續的,但是人眼視覺模型是階梯性非連續的,在這個階梯上存在一個降碼率的空間。
高清低碼一般情況下包括三個模塊:
第一是基于人眼 JND 模型,就是說如何找出 JND;
第二是基于 JND 去做感知編碼;
第三就是通過感知編碼來控制標準編碼內核輸出,在主觀質量不變的情況下大幅降低碼率。
華為云視頻在這方面做了很多的工作,目前針對不同的應用場景,能達到30~50% 的碼率降低。
高清低碼技術現在也走到了一個瓶頸期,原有高清低碼的考慮僅來源于編碼與傳輸信道,隨著 AI 技術的發展,是否還有進一步的發展空間?華為提出了一種新的思路:在原有的率失真模型上,加入一個接收端(解碼端)復雜度的因子,也就是在發送端主動退化,把它通過時域或者空域下的采樣變成一個相對數據量比較小的視頻,這樣做使得編碼的碼率相對更低,達到有效降低碼率的目標。通過一些輔助信息再加上低碼率、低分辨率的編碼碼流,在接收端通過 AI 技術進行超分、插幀或者是增強,將視頻還原,如此整個鏈路上傳輸的碼率會大幅下降,我們初步試驗發現至少能降低60% 以上的碼率。
3.2.4 超低時延編碼
RTC 場景是我們面向下一代視頻產業重點打造的服務能力,RTC 場景下主要是超低時延的編碼,我們提出了一個綜合的超低時延方案,比如編碼和渲染聯合優化、編碼的內核以及分層編碼和信源信道協同等技術手段,面向不同的實時場景會做不同的組合或者應用,我們初步試驗發現在1080P 這種場景下進行編碼和解碼,整體的時延能達到十毫秒級別。
3.2.5 VR FOV 編碼
面向 VR 場景,特別是面向360°場景,我們提出來 FOV TWS 的編碼技術。這個技術原理是將高分辨率的全景視頻分片,多個 FOV 的小分片加上一路4K 的背景流,這樣4K 終端的播放器就能通過相應的視角 FOV 分片和4K 全景背景流實現8K VR 全景視頻播放,同時還能保證 MTP,不會出現眩暈感。該技術已經寫入OMAF 的標準。整體體驗上也得到了用戶的認可。
3.2.6 智能語義編碼
當面向監控場景的時候,我們提出了一種智能語義的編碼,主要通過背景建模加上視頻內容和運動分析,再加上端側的一些實時超分、插幀來構建智能語義編碼的方案。監控場景的畫面往往有很多細節,各種機器分析的識別率不能降低,如果壓的太狠,識別率可能就會下降。初步的原型結果顯示能做到在人和機器的識別率都不降低的前提下,達到70% 以上的碼率節省。
3.2.7 空間視頻云邊協同編碼
另外一個技術是空間視頻編碼,所謂空間視頻就是自由視角或多視角,這也是以后技術發展的一個方向。人們不再滿足于一個固定視角視頻觀看,希望多視點或者自由視角的觀看視頻。在空間視頻的編解碼當中,我們提出一種云邊協同編碼,通過這種編碼可以在邊緣非常短的時間內按需動態的生成任意時刻的切換流,大幅減少一般方案中切換流的碼率,初步試驗發現至少能降低60% 左右的帶寬成本。
3.2.8 AI視頻增強
視頻質量、視頻碼率是視頻產業最關鍵的兩個指標。前面講的技術,不管是標準的技術、還是非標的技術,都是追求在同等畫質的前提下,如何降低碼率。硬幣的另一面則是,在同等碼率下,如何追求視頻主觀體驗質量。我們在這方面也做了很多嘗試,根據不同的場景特征,基于云端、終端 AI 能力,從分辨率、幀頻動態范圍等維度對視頻進行修復、增強和重建。并且考慮真實場景中往往是包含多種混合失真的等因素,我們提出一種面向混合失真的多任務視頻增強框架,能夠很好地適應不同場景和不同需求。
以上內容介紹的是華為云視頻在視頻編解碼上的一些實踐和探索,希望能帶給大家一些啟發。謝謝大家!
視頻 視頻直播
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。