華為云專家私房課:視頻傳輸技術選型的三大法寶
大家好,我是華為云視頻架構師黃挺,非常高興有機會參加LiveVideoStackCon音視頻技術大會,這次和大家分享的主題是:視頻傳輸面臨的挑戰和解決之道。

內容主要涵蓋以下幾個方面:視頻發展的特點、影響IPTV/OTT/RTC音視頻傳輸技術選擇的背后邏輯、結合對未來音視頻傳輸行業的洞察,華為云提出的新媒體網絡價值主張。
一、視頻發展三個特點
數字傳輸IP化,在TV領域,從傳統的數字電視基于Cable的傳輸,到IPTV領域,基于IP傳輸,以及在制作領域,從傳統基于SDI的傳輸,再到基于IP的傳輸,這些都是數字傳輸IP化的體現。數字傳輸IP化是視頻分發公域化的基礎。
視頻分發公域化,有公域化就有對應的私域化,私域化視頻分發一般是指在可管理網絡進行視頻分發,公域化一般是指基于互聯網分發,常見的有:從IPTV到OTT;從企業內部視頻會議到在線視頻會議;視頻分發公域化與視頻傳輸技術的發展密不可分。
業務體驗多樣化:就是不同業務對體驗的規格要求不同,主要存在三個方面:質量,規模,時延;如直播時延<5s;RTC時延<400ms;云游戲時延<10
這里我們看一下VR領域正在發生的變化。目前VR主要有兩類形態,一類是PC VR 如上圖,玩家在玩VR 游戲的時候頭盔需要連一根線到PC主機,游戲運行在PC主機上,活動靈活性受限。另外一類是一體機VR,這是ALL IN ONE 設計,沒有這個“辮子”,活動靈活性好,但是因為計算單元也在這個頭盔上,所以受限于功耗的問題,算力比較小。
目前有一個一體機+PC的方案,既沒有“辮子”,同時也可以使用PC的算力,即通過Wifi 將PC渲染出來的圖像經過編碼后傳輸到VR 頭盔。相對于PC VR,它可以看成是數字傳輸的IP化。
云VR 是更近一步的方案。云VR 直接使用云端的算力對游戲進行渲染,這個時候視頻就需要在公域網咯進行分發了,同時為了滿足體驗的要求,也需要通信技術和視頻傳輸技術的進一步優化。目前的體驗效果與理想狀況,還有一定差距。
前面講到除了時延還有很多體驗上的差異,比如在規模上,不同的業務對分發的要求也不一樣。例如云游戲除了對時延的要求較高,對質量的要求也同樣很高,如果大家玩過王者榮耀,就應該知道,如果只開30幀,會明顯感覺游戲畫面不夠順暢。
對不同應用場景下視頻需求的理解,也能更好的幫助我們理解不同業務領域對技術的選型邏輯,能夠讓我們更快的發現當前技術的不足。接下來,會分別從IPTV、OTT、RTC業務的角度,梳理音視頻傳輸技術選型背后的邏輯。
1. IPTV
1.1 IPTV 介紹
IPTV是由運營商主導建設的一套系統,IPTV的主要業務包括直播、點播、時移、回看和NPVR等,并且同時要達到TV級的質量要求,全天候不間斷的直播。IPTV主要的優勢是運營商可以自建一套可管理的網絡,來保障TV級別的用戶體驗。
IPTV使用的傳輸方式主要有兩種:一個是組播技術,主要應用在直播業務。這個技術大大降低了業務峰值時,流媒體服務器的壓力。另一個是單播技術,使用了RTSP 進行媒體信令控制,使用RTP 協議進行音視頻數據傳輸,單播技術主要應用在點播、時移、回看、NPVR等業務。
1.2 IPTV 直播業務(組播)挑戰
IPTV首要解決的問題是傳輸丟包帶來的花屏、卡頓等體驗問題。
目前采用了2個手段解決這個問題:FEC和ARQ(也叫RET)。FEC主要應用在組播場景;對于隨機丟包比較有效,同時因為是頻道級別的冗余生成,不需要為每個用戶獨立生成冗余報文,所以效率比較高。ARQ可以應用在組播和單播場景。他可以較好的解決連續丟包問題。組播場景下,一般這2個技術會同時使用。
IPTV一個關鍵的體驗指標是頻道切換時長。
頻道切換時長主要是指,用戶按下遙控器切臺按鈕到對應畫面出現的時間。這里我主要介紹一下組播場景下如何縮短這個時間。首先我們知道要讓畫面快速顯示,就要能夠快速解碼。而機頂盒加入組播組的時間取決于用戶何時切臺,這是隨機的,所以最初機頂盒收到的報文并不能立即開始解碼,這樣就會降低頻道切換的速度。
我們通過引入一個獨立的FCC服務器,機頂盒在加入組播組的同時向這個服務器請求一個單播流,FCC服務器可以確保每次請求都從I幀開始發送。這樣機頂盒最初收到報文時就可以解碼,從而提高頻道切換的速度。優化前頻道切換時長需要1-3s,優化后可以縮短到300-500ms。
IPTV本質上是TV領域音視頻傳輸技術的IP化,因為網絡條件比較好,所以在技術選擇上沒有太復雜,更多強調的是系統穩定性和跨廠家易集成性。
2.1? OTT 視頻點播
由于在線觀看用戶數龐大,OTT 視頻平臺首要解決的是視頻內容規模化分發的問題。首先,服務的范圍廣,需要面向全球用戶分發,視頻傳輸公域化、跨運營商提供服務;其次,用戶規模大;最后,需要低成本的同時保證服務穩定可靠。
目前主流解決方案是采用成熟的第三方CDN服務進行分發。例如Netflix,隨著業務規模的增大,走向自建CDN(Open Connect),但依舊對第三方CDN友好,這樣當自建CDN出現故障后,可以快速將流量切給第三方CDN的服務,確保業務的可用性。
此外,OTT視頻點播還面臨一系列體驗問題:例如:帶寬質量不穩定,導致播放體驗下降;終端因為CPU被占用影響播放器解碼穩定性;由于國家和地區的平均接入條件不同,如何讓一個內容同時滿足不同用戶不同終端的體驗要求。
2009開始相繼出現了HLS、MSS、DASH 等ABR技術,ABR 技術根據實時檢測用戶帶寬和終端側CPU 使用率,調整視頻流的質量。這些技術對HTTP CDN 也是友好的。不過,ABR 只是標準化了服務器與客戶端的實現規范。體驗的好壞,還取決于碼率自適應算法的優劣。
2.2?OTT 視頻直播
直播可以細分為E2E時延不敏感和敏感兩類。
第一類:例如新聞直播等,因為沒有和觀眾互動的要求屬于時延不敏感性。所以它們依然可以選擇對CDN友好的HLS和DASH協議,但是時延會高達10-30s。
第二類:例如網紅直播等,需要與觀眾進行彈幕、評論等互動,所以要求直播的E2E時延必須低于5s,這類廠家選擇的技術棧為時延更低的RTMP和HTTP FLV方式。
海外的技術棧選擇和國內有一些不同,因為海外要考慮大量web端客戶,低時延傳輸技術基本以CMAF格式為基礎。目前有三類技術:分別是DASH LL、LLHLS和LHLS。基于這個技術棧E2E時延也可以做到5s以內。
OTT個人直播體驗,還有一個非常重要的點就是上行推流的穩定性,因為一旦推流質量不好,全網的觀看質量都會下降。目前推流協議主要有三類:分別是RTMP、SRT和RIST,其中RTMP是主流,優勢是:成熟、穩定、生態好,各類編碼工具基本都支持。SRT和RIST是基于UDP傳輸,主要優勢是:長距離傳輸(例如:跨洋)、大碼率傳輸、弱網傳輸。另外相較于TCP層的擁塞算法優化,SRT和RIST可以在應用層優化傳輸算法,更新比較方便。一些大型跨洋直播的第一公里推流會使用這類協議。
SRT 有相對成熟的開源社區支持。RIST只定義了標準化的語法,允許實現廠家在此基礎上進行算法創新,而又不影響互相操作。
隨著疫情的持續,實時互動類需求快速爆發,RTC技術在文娛、直播連麥、在線教育、在線會議、醫療金融等場景下,有較為廣泛的應用。
3.1 RTC 架構的選擇
RTC 主要有MESH、SFU、MCU三類架構,MESH架構的優勢是簡單,不需要服務器參與。不足是當與會人越來越多,對客戶端CPU、網絡資源的壓力就會越來越大,最大不超過6人同時與會,改進方向是增加服務器,集中式架構:SFU、MCU。
SFU服務器只負責轉發客戶端的數據,相比較MESH 的方式客戶端的上行帶寬壓力和CPU 資源消耗都大大降低了。不足是:下行依舊需要多條流。通過MCU在服務端混流、轉碼可以解決這個問題,不足是:服務器端計算壓力變大,畫面組合靈活性不夠,部署成本相較于SFU更高。
集中式SFU和MCU架構適用小規模場景,例如傳統的企業內部視頻通話這類的私域化場景。隨著公域化業務興起,集中式的SFU和MCU架構就不能滿足要求了。舉個例子:一場會議其中用戶a、b在中國,用戶c、d在美國,集中式SFU如果部署在美國,則用戶a 和 b之間的通信效果不好;反之,則用戶c 和d之間的通信效果不好。
級聯式SFU 架構,允許一個會議跨越多個SFU。級聯SFU 的優勢是:允許會議加入方的人數動態增長;通過合適的路由策略,降低跨國、跨運營商傳輸帶寬成本;通過本地就近接入,使得終端可以與就近的SFU 進行快速的錯誤恢復,進而改善實時音視頻通信的體驗;架構的演進部分解決了RTC 業務公域化和規?;膯栴}。
而級聯SFU還有一部分問題沒有解決,例如:如何同時滿足同一房間內,不同網絡情況觀眾的體驗沒有問題,業界一般有2個技術:分別是SVC 和Simulcast。
Simulcast 也叫聯播,是由發送端向SFU 發送多個視頻流,質量級別不同,SFU 根據網絡條件,屏幕布局等情況,決定發送哪條流給接收端。聯播優勢是對傳統解碼器沒有額外的要求;劣勢是帶寬占用大。
SVC:即可伸縮編碼,以分層方式創建單個視頻流的編碼技術。每一層都增加了上一層的質量,支持時域、空域、質量域三種方式,SFU決定發送哪幾層流給接收端,目前主流是時域模式。優勢是帶寬占用小;劣勢是只有部分解碼器支持SVC解碼。
對比OTT ABR在服務器側完成多碼率編碼,RTC在端測完成多碼率編碼,減少了一次轉碼,這樣可以降低E2E時延,這也是業務體驗多樣化對技術選型帶來的不同。
因為RTC 主要應用于對低時延要求較高的業務場景,所以RTC采用了更為“積極” 的方式,應對網絡變化,來改進用戶體驗。
首先RTC 從傳輸底層技術上就選擇了RTP over UDP 實時流媒體傳輸方式,這為后續積極的應對策略提供了基礎。RTC共域傳輸較于IPTV私域傳輸更加豐富的丟包恢復手段,包括:FEC、NACK、RED、RTX和PLI等。
光有這些丟包恢復方法還不夠,客戶端還是需要有一定的Buffer,來抵抗網絡的抖動和丟包,否則重傳之后,這1幀可能就過時了。但是增加buffer又會帶來時延的增加,所以我們的端側有一個動態Jitter Buffer的算法,來解決丟包、亂序以及延遲到達的問題。同時也可以平滑顯示的幀率。
低時延核心的問題是避免網絡擁塞,一旦網絡中存在大量buffer,就會導致時延變大,這個時候就需要通過擁塞控制算法來解決。擁塞控制算法的目標是:讓“發送速率” 逼近 “可用速率”,同時保持盡可能低的“隊列占用率”。
RMCAT是一個IETF小組;他們的工作內容包括:定義需求;設計基于RTP的實時流媒體協議傳輸的擁塞控制算法。目前有三種RMCAT算法包括:GCC、NADA和SCReAM。其中GCC因為應用在Chrome瀏覽器上,是目前比較成熟的算法。包括GCC-REMB和新版本GCC-TFB。新版本的優勢是:由一端來控制算法,有利于版本演進,同時發端可以根據內容屬性的不同,分配不同的帶寬進行傳輸,更加靈活。
第一業務多。邊緣業務類型越來越多,從現在已經成熟的下載、點播、直播、RTC,在到正在快速發展的云游戲、云XR等;同一節點部署不同類型的服務,包括緩存、推流、拉流、轉發、云渲染等;而煙囪式架構面臨一系列問題:包括網絡、計算、存儲資源管理、差異化體驗管理等。
第二要求高。新的媒體表現形式沉浸感更強,對音視頻傳輸的要求更高。而且這種提高是全方位的,主要包括:
提升帶寬:從1M到10M再到VR屏幕的100M。
降低時延:從直播的5s到RTC的400ms到云游戲100ms再到云XR的20ms;同時新的業務也產生了對新的時延類型的要求,例如云游戲要解決的input lag,云XR在3dof場景下要解決rotation lag和在6dof場景下的position lag問題。
提高幀率:從平面視頻的30P,到未來的60P,甚至120P,而VR內容60P只是起步,90P算及格。未來如果需要滿足人眼極限要求的VR內容每秒需要大約2Gbps的數據。這還是經過壓縮之后的碼率。
增強渲染:從平面視頻的2D渲染,到VR中的3D渲染、空間音頻渲染,這樣沉浸感才能更強。
平面視頻的主要指標:包括秒開率,卡頓率、和播放成功率,而影響VR沉浸感體驗的因素則更多。
第三發展快。在行業競爭日益激烈的環境下,要求企業需要有差異化體驗,客觀上要求創新速度快,技術發展快, 在這個過程中我們的客戶遇到的痛點有:
開發工作量大,適配不同終端機型
耗電快,圖形處理為計算密集型處理
手機型號有要求,部分用戶無法享受
安裝包變大,影響app推廣和用戶下載體驗
如何應對這三大挑戰,我們提出了華為云新媒體網絡的價值主張。愿景是打造一張面向娛樂視頻、通信視頻、行業視頻的新媒體網絡,來滿足視頻高效傳輸的要求。
其中我們的價值主張是:
低時延、全互聯、大規模實時音視頻分發
高通量、沉浸式新媒體傳輸
端、邊、云協同創新,靈活定義媒體處理流水線
新媒體網絡同時具備以下特征:
扁平化:1套網絡,1套架構
廣覆蓋:全網2500+節點,全球覆蓋
全場景:使能娛樂、通信、行業視頻等各種場景
多連接:實現海量的、面向不同類型終端的連接
超體驗:從1080P至8K,毫秒級時延,極致抗丟包
低時延:利用邊緣云技術,支持毫秒級的低時延應用
低時延、全互聯、大規模實時音視頻分發
基于華為云的新媒體網絡,我們支持在線教育技術升級,打造更優的在線教育平臺。在傳統架構下,實現低時延互動與大規模分發需要用到2個產品RTC 和CDN,這樣存在4個問題:
CDN和RTC兩個網絡,問題定界困難,問題修復周期長。
旁路直播引入延時,學生在觀看和互動間切換存在3-5秒以上時差。
互動直播和直播兩套SDK,對接困難。
針對普通直播觀看學生,無法實現共享屏幕與教師畫面同步傳輸。
基于華為云新媒體網絡的架構,只需要一個華為RTC服務,就可以實現原來2個產品的功能,主要優勢有:
一套實時音視頻網絡,問題定位簡單,降低運維成本。
可支持學生在互動和觀看間自由無感切換,無時延。
統一架構,一套SDK覆蓋連麥,推流和播放,對接簡單,資源包消耗小。
可保證共享屏幕與教師畫面同步性。
高通量、沉浸式新媒體傳輸
華為云的Tile wise Streaming技術,解決了目前VR產業的兩大難題:第一VR頭盔算力有限,無法支持VR 8K內容的硬件要求;第二VR內容全量傳輸,帶寬消耗過大。
我們的解決方案是:將原始8K VR內容進行預處理,轉碼成兩條流,一個是4K全景背景流和一個高清前景流。同時對高清前景流進行Tile劃分。播放器會根據用戶的視場角,選擇對應的高清晰Tile分塊進行下載,同時下載4K全景背景流,用于轉頭時短暫使用。
這個方案的優勢是:4k硬解終端可以播放8K VR內容;網絡下載帶寬降低75%;我們通過端邊云協同,實現了用戶轉頭到高清畫面展示的延遲只需要100-200ms,人眼幾乎無法感知。
端、邊、云協同創新,靈活定義媒體處理流水線
目前斗魚攜手華為云打造云端特效市場,用算力釋放想象力,打造更佳互動的直播體驗。
這個方案的有幾大優勢:第一、為直播品臺提供了創新的玩法:特效直接在上云運行、APP消耗更低,主播再也不用擔心電池問題;云端服務器性能強勁,特效效果更優,高級特效算法選擇更多。
第二點形成算法生態:云端算法生態聚集各種特效,例如:不同臉型、膚色的美顏效果;創新周期更短,主播可以更快體驗到各種特效。
第三點優質的體驗:依托華為云新媒體網絡,基于華為RTC的實時美顏,時延可以做到低于400ms;新特效實時生效,無需更新APP。
視頻發展的三個特點:
數字傳輸IP化
視頻分發公域化
業務體驗多樣化
視頻傳輸技術選型的三大法寶:
業務需求:規模、質量、時延
視頻分發網絡:公域、私域
技術實施代價:技術復雜度、成本、生態
華為云新媒體網絡的三大價值主張:
低時延、全互聯、大規模實時音視頻分發;
高通量、沉浸式新媒體傳輸
端、邊、云協同創新,靈活定義媒體處理流水線
本次的分享就到這里,感謝各位專家的聆聽,希望未來能夠與大家在工作中進行深入的交流與合作,謝謝大家。
媒體處理 實時音視頻 視頻點播 視頻直播
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。