科技改變生活 · 科技引領未來
對全球不可靠的互聯(lián)網(wǎng)絡和大容量分布式系統(tǒng)的挑戰(zhàn),如何以用戶為中心,從可用變得更好用,追求更流暢、更清晰、更快、更省的極致用戶音視頻體驗?2021LiveVideoStacCon北京站邀請到華為云媒體服務資深研發(fā)專家—康永紅,為大家分享華為云
對全球不可靠的互聯(lián)網(wǎng)絡和大容量分布式系統(tǒng)的挑戰(zhàn),如何以用戶為中心,從可用變得更好用,追求更流暢、更清晰、更快、更省的極致用戶音視頻體驗?2021LiveVideoStacCon北京站邀請到華為云媒體服務資深研發(fā)專家—康永紅,為大家分享華為云媒體服務在追求極致用戶體驗質(zhì)量道路上的沉淀成果——“視鏡”。
文/康永紅
整理/Live Video Stack
今天分享的主題是華為云媒體質(zhì)量管理最新實踐成果,“視鏡”是華為云研發(fā)的與媒體服務相關的質(zhì)量管理平臺。
分享的內(nèi)容主要包括三部分:
媒體質(zhì)量新需求與新挑戰(zhàn)
隨著用戶對音視頻業(yè)務的體驗要求越來越高,音視頻體驗整體表現(xiàn)特點是“二高二低”,超高質(zhì)量、超高流暢、極低時延、低成本。
超高質(zhì)量:用戶對于沉浸式的觀感要求越來越高,視頻碼率也從4K、8K發(fā)展到更高;同時幀率也在向120fps發(fā)展。超高流暢:要求低于0.3%的丟包率;極低時延:用戶“天涯若比鄰”的實時交互感要求低于50ms的極低時延;
低成本:當前互聯(lián)網(wǎng)流量中,音視頻流量占比約80%,算力消耗占比約40%,60%的儲存占比60%。不同運營商的帶寬成本不同,不同區(qū)域的計算算力價格也不同,要綜合考慮成本最優(yōu)。
另外,要支撐極致體驗,還需要一張具備帶寬、時延和可靠性三個核心特征的媒體網(wǎng)絡,具備感知QoS質(zhì)量的Fullmesh化實時音視頻網(wǎng)絡。
這里提到三個關鍵詞:無所不在的音視頻聯(lián)接、“資源共享”、“云原生”。
網(wǎng)絡時代,人們白天使用云桌面辦公,進行視頻會議,晚上看直播或和朋友視頻聊天等,用戶隨時隨地在消費音視頻業(yè)務,音視頻聯(lián)接無處不在,多種業(yè)務跑在音視頻媒體網(wǎng)絡上,從成本和質(zhì)量上要求資源共享復用,資源復用模式也在不斷演進,從CDN共棧模式,向共網(wǎng)絡、共算力、共實例的OneMedia的趨勢發(fā)展。而且未來隨著高清晰度、高流暢度、強交互感的元宇宙在驅(qū)動算力重構(gòu),向邊緣計算快速演進,高計算處理能力放置在更靠近用戶和設備的位置,內(nèi)容就近計算儲存,邊緣計算可節(jié)省高達35%的資源。
以上是新需求,再來看一下音視頻媒體業(yè)務面臨的質(zhì)量挑戰(zhàn)。眾所周知,體驗質(zhì)量對業(yè)務至關重要:體驗質(zhì)量每提升1個點,收益預估可以增加20%,而且成本會下降30%。從直播來看嗎,如果我們能將直播卡頓率降低20%,整個直播播放時長,能增加30%以上。但體驗質(zhì)量優(yōu)化提升面臨的挑戰(zhàn)也非常大,以直播業(yè)務媒體網(wǎng)絡結(jié)構(gòu)為例,從推流、拉流、傳輸、到分發(fā),任何一個環(huán)節(jié)出現(xiàn)不穩(wěn)定的情況,都會導致終端播放體驗變差。
總體而言,目前音視頻業(yè)務普遍面臨著以下四大挑戰(zhàn):
以上四個挑戰(zhàn)可以綜合為一個問題:如何實現(xiàn)多業(yè)務多客戶多目標質(zhì)量最優(yōu)?
如何做到多業(yè)務多客戶多目標的綜合質(zhì)量最優(yōu),接來下從體系和能力建設視角分享下我們的優(yōu)化之道。去年也做了關于體驗優(yōu)化這個問題的分享,但當時只分享了兩部分,體驗診斷及體驗提升。但在實際業(yè)務中,這兩點根本無法達到預期。
經(jīng)過摸索總結(jié),我們認為局部優(yōu)化在業(yè)務量比較小的階段作用很明顯,但進入到幾百T的大業(yè)務量階段時其作用就不明顯。體驗質(zhì)量貫穿媒體業(yè)務的設計-研發(fā)-運維全生命周期,就要求建立端到端的質(zhì)量管理過程,音視頻媒體網(wǎng)絡是基于不可靠組件和不可靠互聯(lián)網(wǎng)絡,在全球范圍構(gòu)建大容量分布式系統(tǒng),在設計階段,考慮跨國跨區(qū)域跨運營商的網(wǎng)絡的不可靠性,要具備面向不同業(yè)務場景定義體驗質(zhì)量體系標準和網(wǎng)絡設計能力,來保障用戶確定的實時音視頻互動體驗需求。在研發(fā)環(huán)節(jié)要具備音視頻體驗質(zhì)量的測試服務能力,在運維階段,整個閉環(huán)中的每一環(huán)節(jié)都需要進行從監(jiān)控到診斷智能的體驗提升。最后是專業(yè)的運維保障能力,對重大的運維事件及場景進行保障。
接來下分別針對各個環(huán)節(jié)分享華為云的實踐。
華為云音視頻媒體體驗質(zhì)量體系
首先分享下華為云音視頻媒體體驗質(zhì)量體系,華為云以用戶為中心,從用戶使用不同音視頻業(yè)務的生命周期體驗歷程去看體驗質(zhì)量。入房請求階段,用戶關注的是快速看到內(nèi)容,這一階段的核心關注項是拉流成功率、首幀時長、時延等指標。播放環(huán)節(jié)用戶關注的是播放是否清晰流暢以及端到端到時延。
音視頻媒體網(wǎng)絡是基于不可靠組件和不可靠互聯(lián)網(wǎng)絡,在全球范圍構(gòu)建大容量分布式系統(tǒng),來保障用戶確定的實時音視頻互動體驗需求。為解決音視頻體驗質(zhì)量無章可循、不可衡量、無保障的痛點,基于用戶體驗歷程,從保障的維度范圍我們綜合端、網(wǎng)絡,從傳輸層、媒體層、信令層定義了一套華為云音視頻全網(wǎng)絡體驗規(guī)范框架ELA,各個音視頻業(yè)務都可以參照這個框架來定義體驗質(zhì)量。
我們認為“質(zhì)量”的邊界絕不會僅止于此,一切皆為“序章”。
區(qū)別于直播體系只關注QoS或QoE環(huán)節(jié),我們基于體驗框架ELA以用戶體驗為中心的宗旨設計了一套4層SLA-QoS-QoE-ELA的音視頻體驗指標金字塔體系,每層都包含對應體驗框架定義的傳輸、媒體、信令三種類型,從低向上逐層支撐用戶體驗。
每個音視頻業(yè)務都可以參照這個金字塔體系定義業(yè)務指標。 SLA層定義系統(tǒng)的高可用性(節(jié)點可用度、實例可用度、API可用度),將“可用”轉(zhuǎn)為“好用”的過程需要QoS層和QoE層來保障,ELA層是我們向客戶提供音視頻服務的體驗承諾,是非常嚴謹?shù)闹笜耍挥羞_到這個指標,服務才是好用的。從網(wǎng)絡端環(huán)節(jié)和終端環(huán)節(jié)的每一層打開都包含網(wǎng)絡層、媒體層和管理層,對每一層進行相應的質(zhì)量評估。以終端媒體層為例,在QoS層,會監(jiān)控媒體的卡頓率、幀率、碼率,在QoE層,會監(jiān)控流暢度、清晰度。在ELA層,會監(jiān)控卡頓達標情況等業(yè)務綜合性指標。
以SparkRTC業(yè)務為例,基于ELA體系,SparkRTC發(fā)布了視鏡服務,可以通過9個維度方面的指標實時監(jiān)控和洞察分析業(yè)務質(zhì)量情況和發(fā)展情況,例如通話監(jiān)控觀測實時通信指標、體驗監(jiān)控分析體驗質(zhì)量、規(guī)模監(jiān)控觀測用量規(guī)模、網(wǎng)絡監(jiān)控實時情況、設備監(jiān)控判斷內(nèi)存、CPU情況、異常診斷(基于ELA體系及時發(fā)現(xiàn)問題在終端或是網(wǎng)絡)、質(zhì)量評測。
視鏡服務依賴于網(wǎng)絡和端的監(jiān)控數(shù)據(jù),由用戶行為數(shù)據(jù)、網(wǎng)絡傳輸面及媒體面數(shù)據(jù)等綜合分析計算而成。
有了體驗質(zhì)量框架和指標體系,還需要質(zhì)量管理過程和技術平臺保障,從技術架構(gòu)上,支持媒體體驗質(zhì)量工作涉及音視頻測試技術、云網(wǎng)絡設計、全鏈路監(jiān)控與分析、智能決策和調(diào)度、智能A/B實驗平臺、音視頻專業(yè)的運維能力等6方面的核心技術。
下面針對這6個核心能力展開介紹我們做的一些實踐。
華為云媒體質(zhì)量優(yōu)化實踐
之前在研發(fā)環(huán)節(jié)沒有對音視頻體驗質(zhì)量進行充分測試,導致版本上線后出現(xiàn)了體驗質(zhì)量問題,有用戶反映出現(xiàn)黑屏、卡頓,經(jīng)過復盤及思考整個研發(fā)環(huán)節(jié)的短板后,我們構(gòu)建了專業(yè)的音視頻測試服務,具體包括:
在測試流程中,我們針對兩個短板設計了解決方案。
產(chǎn)品上線,進入運維周期,首先要具備全鏈路質(zhì)量監(jiān)控與分析,對于了解網(wǎng)絡狀況、體驗優(yōu)化、容量規(guī)劃、故障排除等十分重要。全鏈路檢測和分析面臨著四方面挑戰(zhàn):準確性(監(jiān)控指標是否完整,定義指標是否合理)、可擴展性(對于監(jiān)控上千個節(jié)點的大容量網(wǎng)絡時,需要具備實時伸縮性)、速度(達到實時監(jiān)控)、完備性(監(jiān)控需要覆蓋端到端,從推流到拉流)。
我們設計了三條優(yōu)化實踐之路:
右側(cè)的SparkRTC是基于一方端的數(shù)據(jù)和一方網(wǎng)絡數(shù)據(jù)做的全鏈路網(wǎng)絡質(zhì)量監(jiān)控,每個節(jié)點的QoE、QoS指標都可以進行對比,還可以分析用戶操作,監(jiān)控網(wǎng)絡的質(zhì)量。
下面我們從監(jiān)控的三個維度,用戶、站、流分析打開看一些具體實踐。
首先是用戶體驗監(jiān)控和分析。
在通話過程中,由于用戶、網(wǎng)絡、設備等限制,用戶可能會遇到卡頓、延時、黑屏等問題,此類問題統(tǒng)稱為體驗異常,解決體驗異常之前先要定義體驗指標,不同業(yè)務的體驗指標不同,以SparkRTC為例,對進房慢的用戶(5s內(nèi)入房失敗)、音頻卡頓用戶(音頻卡頓率≥3%)、視頻卡頓用戶(視頻卡頓率≥5%),進行實時指標監(jiān)控,檢測到指標異常會觸發(fā)告警、同時實時自動診斷技術能夠檢測卡頓原因在于主播端網(wǎng)絡、傳輸網(wǎng)絡還是接收端網(wǎng)絡,如果原因在于端網(wǎng)絡,后續(xù)還要對其進行網(wǎng)絡調(diào)度及解決。
其次從網(wǎng)絡質(zhì)量監(jiān)控分享一些實踐。
音視頻媒體網(wǎng)絡是基于不可靠互聯(lián)網(wǎng)絡,在網(wǎng)絡優(yōu)化實踐中,我們遇到了三個困境:
基于這些困境,我們思考構(gòu)建網(wǎng)絡模型學習系統(tǒng),學習現(xiàn)網(wǎng)所有發(fā)送端及接收端的QoS數(shù)據(jù),之后用于研發(fā)的音視頻測試服務、在線體驗自動診斷和在線體驗調(diào)控優(yōu)化。在線體驗自動診斷是在測試某個網(wǎng)絡模型時,這個網(wǎng)絡模型會告知此模型中機場或辦公室場景的大致卡頓率或其它質(zhì)量指標,此時如果現(xiàn)網(wǎng)來了一段類似的網(wǎng)絡QoS時序,那么就會匹配到此網(wǎng)絡模型上,我們就可以大概知道可能會出現(xiàn)何種體驗問題。在線體驗調(diào)控優(yōu)化是在發(fā)現(xiàn)某位用戶端的網(wǎng)絡特別差時,我們會為他選擇弱網(wǎng)場景的優(yōu)化參數(shù)(流控參數(shù)或降碼參數(shù))進行適配。
技術上采用基于網(wǎng)絡QoS時序聚類智能學習業(yè)務場景網(wǎng)絡模型,先時序特征聚類,后形狀聚類。這里面臨的兩個挑戰(zhàn),1、每天需要學習現(xiàn)網(wǎng)幾十甚至上百T的QoS數(shù)據(jù),通過結(jié)合特征聚類和形狀聚類的方式能夠解決此問題。2、每天要學習現(xiàn)網(wǎng)前一天的全量模型,這里有一個增量策略。
從實際使用情況來看,有以下兩個觀點適用于所有業(yè)務:
最后是媒體流內(nèi)容質(zhì)量評估的實踐。
媒體流在現(xiàn)網(wǎng)傳輸、分發(fā)過程中可能出現(xiàn)損傷,引起畫質(zhì)變差。一般幀率、碼率能側(cè)面反映視頻質(zhì)量,但不等同于用戶的主觀質(zhì)量評價。目前如PSNR、SSIM以及比較火的VMF視頻質(zhì)量評估主要是有參考的,我們需要有效的、實時的、無參考的客觀視頻質(zhì)量評估模型以解決四個方面的問題:
構(gòu)建自動化極致體驗優(yōu)化系統(tǒng),提升終端用戶體驗。
為此,華為自研構(gòu)建視頻在線媒體質(zhì)量評估能力HVQA。HVQA是基于深度網(wǎng)絡學習模型的無參考視頻質(zhì)量評估,主要解決兩個問題:1、能夠檢測異常內(nèi)容,比如黑屏、花屏,目前能滿足1080p,30幀的檢測能力。2、能對畫質(zhì)進行評估,比如清晰度等客觀指標。HVQA已應用在兩個場景中:1、端側(cè)視頻質(zhì)量評估。2、服務側(cè)視頻質(zhì)量評估:在服務端對轉(zhuǎn)碼視頻流進行視頻內(nèi)容質(zhì)量評估。
實際測試效果顯示,異常內(nèi)容檢測方面,在實際業(yè)務測試集上對黑屏、花屏的檢測準確率達100%,召回率達60%,對視頻畫質(zhì),如清晰度的測試情況為SROCC=0.8283,PLCC=0.7886,CPU占用增加1.9%,內(nèi)存占用增加1%。
目前華為云的會議系統(tǒng)已在逐步應用HVQA。
大家平時在體檢時會按照體檢的大致框架一步步進行,框架中包括體檢的指標,也就是系統(tǒng)的組成。我們將體檢思路運用到媒體質(zhì)量診斷,在診斷網(wǎng)絡之前要先理解網(wǎng)絡,主要做法是基于時空理解網(wǎng)絡,包括理解系統(tǒng)、理解用戶、理解內(nèi)容,從影響音視頻卡頓的因素看,包括系統(tǒng)(站點之間的網(wǎng)絡時好時壞,邊緣站點有水位,資源有瓶頸)、用戶(接入網(wǎng)絡wifi/4G、本區(qū)域和跨區(qū)域接入影響)和內(nèi)容(冷熱流影響,主播端產(chǎn)生內(nèi)容質(zhì)量差)等各方面。
基于時空體驗診斷能力,我們構(gòu)建了一個整個網(wǎng)絡時空孿生世界。主要解決了運維面臨的問題如查找難、定位難、優(yōu)化難,解決之道是基于數(shù)據(jù)和算法重新定義媒體網(wǎng)絡運維,首先要感知網(wǎng)絡中的業(yè)務類型,業(yè)務內(nèi)容,用戶內(nèi)容,感知之后基于“人、站、流”構(gòu)建數(shù)字世界。系統(tǒng)站方面主要感知時延、帶寬、丟包、抖動、負荷等參數(shù);視頻流內(nèi)容方面主要感知質(zhì)量;用戶人方面主要感知行為、QoE。
數(shù)字世界中已有百萬級對象、千萬級關系、億級時序線。
診斷模型的構(gòu)建策略是分三層來構(gòu)建整體的能力,最基礎的能力就是構(gòu)建L0全鏈路網(wǎng)絡拓撲基礎能力,其次是基于L0能力構(gòu)建基于時空質(zhì)量因素自動診斷全網(wǎng)體驗問題,最上層是業(yè)務分析能力層,支撐體驗指標與業(yè)務規(guī)模的多維分析,如果上層業(yè)務體驗指標發(fā)生了變化,通過業(yè)務模型、診斷能力,全鏈路能夠快速找到影響因素并進行優(yōu)化。
接下來介紹在體驗提升方面的一些實踐,實踐包括業(yè)務層的全域調(diào)度及傳輸層的全鏈路加速。現(xiàn)網(wǎng)存在的很多問題是無法使用單一方法解決,這里有四個問題:多SLA保障問題,成本高昂問題、資源訴求劇增、業(yè)務場景融合,這些問題往往都是多業(yè)務,多目標的綜合性問題,需要一個數(shù)據(jù)驅(qū)動的云原生媒體網(wǎng)絡決策系統(tǒng)來解決,決策系統(tǒng)需要具備的核心能力是智能畫像(能夠進行QoS預測、帶寬預測、用戶數(shù)預測、算力消耗預測),流量調(diào)度、算力調(diào)度、商業(yè)助手(因為所有業(yè)務都跑在一張網(wǎng)絡上,涉及到資源復用,需要知道下一位用戶第二天的復用情況。需要從回源率、成本、復用比三個維度進行預測)。
解密多業(yè)務多目標全域決策的實施流程,首先從四個維度感知各個音視頻業(yè)務,包括健康特征、容量特征、成本特征,質(zhì)量特征。接著建立特征畫像庫,包括用戶畫像庫、站點畫像庫、網(wǎng)絡畫像庫。綜合以上畫像結(jié)合調(diào)度算法(接入調(diào)度算法、回源調(diào)度算法、Full Mesh調(diào)度算法、轉(zhuǎn)碼算力調(diào)度算法)支撐用戶體驗的提升及降成本。
通過多目標、多業(yè)務的調(diào)度技術實踐,在回源率降低20%的情況下,首幀時延還能優(yōu)化8%,轉(zhuǎn)碼算力成本降低50%。
下面分享傳輸層全鏈路加速服務。
傳統(tǒng)Internet通過OSPF、BGP等標準路由協(xié)議Underlay傳輸,它不感知時延、丟包等QoS故障,導致無法滿足上層業(yè)務應用QoS質(zhì)量訴求。Internet長距離傳輸無法滿足普通TCP類業(yè)務QoS要求,因為跨國端的時延基本大于300ms,丟包率超過20%。
我們針對以上問題自研了全鏈路網(wǎng)絡加速服務,在Internet Underlay網(wǎng)絡上疊加Overlay網(wǎng)絡,實時感知每條鏈路的QoS(時延、丟包率),選擇最佳Overlay路徑流量轉(zhuǎn)發(fā),從而提供相應的QoS承諾。
基于全鏈路傳輸加速服務,應用于國內(nèi)RTC加速場景,從測量數(shù)據(jù)上看,ADN選擇的路徑時延要小于級聯(lián)架構(gòu)組網(wǎng)下RTC的時延,在極端情況下對比更明顯。部分路徑優(yōu)勢非常明顯,如鄭州到濟南,從50ms提升至10ms以內(nèi)。應用于海外加速效果,時延加速在Internet傳輸?shù)膸装俸撩氲幕A上平均提升20%,全球時延在200ms以內(nèi),消除了90%的丟包場景。
最后分享我們在重大事件運維保障的一些實踐,如保障國家級重大會議或直播賽事,保障挑戰(zhàn)很大,包括時間緊,任務重,保障方案復雜,保障壓力大,還要做到零事故、零中斷、零卡頓,零花屏。通過上百個項目的沉淀,我們將保障實踐總結(jié)為一個高可用平臺加6個保障DNA,高可用平臺是基于云原生基礎設施提出一個高可用架構(gòu),同時建造穩(wěn)定的音視頻網(wǎng)絡系統(tǒng)及豐富的故障管理能力。DNA主要覆蓋需求交付、整體協(xié)調(diào)、全球覆蓋、系統(tǒng)高可靠、立體演練。系統(tǒng)高可靠包括雙平面保底方案,確保極限場景下可用;媒體資源VIP保障,資源隔離,專屬使用;關鍵風險識別、應急預案制定并演練。立體演練包括全流程演練,問題日清日結(jié);同聲傳譯、主會場屏幕顯示、掌聲等關鍵場景多場次演練并優(yōu)化方案;數(shù)字化遠程運維平臺,演練及時監(jiān)控,效果和問題分析。
總結(jié)與展望
最后,總結(jié)下今天分享的內(nèi)容:
1、音視頻發(fā)展的兩個需求(網(wǎng)絡感知,F(xiàn)ullMesh化;算力重構(gòu)、多業(yè)務融合、資源復用)和四大挑戰(zhàn)(用戶體驗優(yōu)化手段少、多場景客戶端QoS保障難、降資源成本難、查問題定位難);
2、音視頻體驗質(zhì)量解決之道:
展望未來,當元宇宙時代出現(xiàn)時,怎么定義音視頻體驗質(zhì)量規(guī)范。基于端、邊、云時空數(shù)據(jù)協(xié)同,如何做到多業(yè)務、多目標、多客戶的綜合決策和千人千面的用戶體驗。這兩點都以上是本次的分享,謝謝!
關注@華為云,了解更多資訊
何龍遠
版權所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務經(jīng)營許可證備案號:遼ICP備14006349號
網(wǎng)站介紹 商務合作 免責聲明 - html - txt - xml