智驅(qū)流量,效贏增長(zhǎng)

vivo互聯(lián)網(wǎng)撥測(cè)監(jiān)控負(fù)責(zé)人 莫瀚
vivo互聯(lián)網(wǎng)撥測(cè)監(jiān)控負(fù)責(zé)人莫瀚詳細(xì)介紹了vivo撥測(cè)的現(xiàn)狀、能力及如何支持流量調(diào)度。他指出,撥測(cè)在vivo的核心使命是為所有業(yè)務(wù)和產(chǎn)品的高可用保駕護(hù)航。在實(shí)踐中,通過(guò)構(gòu)建一個(gè)覆蓋全球,以自有真實(shí)手機(jī)作為撥測(cè)載體的探測(cè)網(wǎng)絡(luò),成功為智能調(diào)度提供了數(shù)據(jù)基石。在此之上,通過(guò)輸入,執(zhí)行,處理,應(yīng)用的閉環(huán)流程,vivo將原本被動(dòng),依賴經(jīng)驗(yàn),效率低下且高風(fēng)險(xiǎn)的人工調(diào)度動(dòng)作,升級(jí)成為以數(shù)據(jù)驅(qū)動(dòng)的智能主動(dòng)調(diào)度體系,不僅釋放了運(yùn)維人力,效率和可靠性方面更得到極大提升。

vivo互聯(lián)網(wǎng)運(yùn)維平臺(tái)研發(fā)負(fù)責(zé)人 周建華
在數(shù)據(jù)決策基石構(gòu)建之后,vivo互聯(lián)網(wǎng)運(yùn)維平臺(tái)研發(fā)負(fù)責(zé)人周建華分享了如何在基石上搭建一座‘融合流量管理’的大廈。和很多公司一樣,vivo采用了私有/公有云結(jié)合的混合云架構(gòu)。雖然該架構(gòu)十分典型,但也會(huì)帶來(lái)復(fù)雜難管理、成本壓力高、質(zhì)量挑戰(zhàn)大、運(yùn)維效率低和安全風(fēng)險(xiǎn)高五大核心挑戰(zhàn)。他表示,vivo通過(guò)打造融合流量管理平臺(tái),實(shí)現(xiàn)了統(tǒng)一納管、智能決策、安全防護(hù)和監(jiān)控自動(dòng)化,不僅運(yùn)維效率大幅提升,用戶體驗(yàn)也得到改善。同時(shí)他還透露,未來(lái)將聚焦AI驅(qū)動(dòng)的深度優(yōu)化、流量管理的持續(xù)深化、打通網(wǎng)絡(luò)質(zhì)量和業(yè)務(wù)指標(biāo)的關(guān)聯(lián),進(jìn)行持續(xù)探索。
微服務(wù)架構(gòu)探索,Dubbo性能優(yōu)化
隨著用戶規(guī)模的擴(kuò)大和業(yè)務(wù)范圍的全球化,vivo啟動(dòng)微服務(wù)化以賦能業(yè)務(wù)增長(zhǎng),通過(guò)全網(wǎng)治理,收斂Dubbo作為Java技術(shù)棧RPC框架。面對(duì)業(yè)務(wù)規(guī)模的快速擴(kuò)張,為保障系統(tǒng)的高性能與穩(wěn)定性,vivo在Dubbo路由與負(fù)載均衡的性能優(yōu)化方面進(jìn)行了多方位的實(shí)踐。
針對(duì)Dubbo路由的優(yōu)化與擴(kuò)展,vivo互聯(lián)網(wǎng)Java中間件架構(gòu)師張振威在會(huì)上介紹,vivo首先針對(duì)多機(jī)房場(chǎng)景通過(guò)建設(shè)就近路由能力,顯著降低了RT敏感性業(yè)務(wù)的請(qǐng)求延遲,增強(qiáng)了業(yè)務(wù)的可用性與多機(jī)房容災(zāi)能力;其次針對(duì)路由鏈,從精簡(jiǎn)鏈路和引入位圖緩存結(jié)構(gòu)兩大方向進(jìn)行了系統(tǒng)性優(yōu)化,大幅提升路由執(zhí)行效率。

vivo互聯(lián)網(wǎng)Java中間件架構(gòu)師 張振威
在Dubbo的負(fù)載均衡方面,vivo基于社區(qū)版本構(gòu)建了vivo自適應(yīng)負(fù)載均衡能力,重點(diǎn)優(yōu)化了P2C算法并引入權(quán)重計(jì)算單元,實(shí)現(xiàn)了負(fù)載均衡器基于提供方負(fù)載進(jìn)行流量自適應(yīng)與平滑調(diào)度的能力,最終顯著提升服務(wù)質(zhì)量與容量,同時(shí)實(shí)現(xiàn)降本增效的目標(biāo)。
張振威還表示,未來(lái)將致力于推進(jìn)Dubbo與開源社區(qū)版本對(duì)齊,同時(shí)構(gòu)建跨語(yǔ)言的統(tǒng)一微服務(wù)治理平臺(tái)。為此,vivo計(jì)劃建設(shè)一套標(biāo)準(zhǔn)化的、語(yǔ)言無(wú)關(guān)的微服務(wù)治理平臺(tái)。該平臺(tái)將提供統(tǒng)一的服務(wù)發(fā)現(xiàn)、流量監(jiān)控、流量治理以及服務(wù)觀測(cè)能力。真正實(shí)現(xiàn)“多語(yǔ)言開發(fā),一體化治理”的目標(biāo),以降低未來(lái)的系統(tǒng)復(fù)雜性與運(yùn)維成本。
全鏈路多版本環(huán)境管理,效率與并發(fā)的飛躍
在日常開發(fā)中,“環(huán)境”問(wèn)題往往是開發(fā)工作效率提升的最大瓶頸之一。對(duì)此,vivo互聯(lián)網(wǎng)DevOps架構(gòu)師吳清華在會(huì)上分享了vivo的實(shí)踐案例,以往需耗時(shí)2人天的環(huán)境準(zhǔn)備工作,現(xiàn)在只需一鍵觸發(fā)分鐘級(jí)自動(dòng)完成,受到了與會(huì)者高度關(guān)注。
日常開發(fā)所需要面對(duì)的“環(huán)境”問(wèn)題主要集中在:環(huán)境不穩(wěn)定、測(cè)試環(huán)境混亂、環(huán)境占用嚴(yán)重、資源利用率極低等方面,且這些問(wèn)題并非個(gè)案。吳清華介紹,傳統(tǒng)的環(huán)境管理方式已經(jīng)走到盡頭,必須找到一種全新的方法,能夠讓多個(gè)版本像“平行宇宙”一樣,安全、隔離、高效地同步測(cè)試與發(fā)布。

經(jīng)過(guò)反復(fù)思考和探討,vivo采用了“全鏈路多版本環(huán)境管理”理念,并將其凝練成三把關(guān)鍵“利刃”:第一是「全鏈路能力」,確保版本所依賴的所有組件和整條鏈路都能一鍵拉起、即時(shí)就緒;第二是「多版本并行」,讓每個(gè)版本都在自己的“沙箱”里運(yùn)行,徹底告別資源搶奪,終結(jié)“搶環(huán)境”的戰(zhàn)爭(zhēng);第三是「環(huán)境自動(dòng)化管理」,從環(huán)境搭建、彈性伸縮到閑置回收,全部自動(dòng)完成,實(shí)現(xiàn)全生命周期的自動(dòng)化,真正實(shí)現(xiàn)降本增效。
不僅如此,吳清華還介紹了全鏈路多版本環(huán)境管理,通過(guò)環(huán)境編排、彈性資源和流量隔離三大關(guān)鍵技術(shù)構(gòu)筑堅(jiān)固的鐵三角,為vivo帶來(lái)了巨大的收益。未來(lái),將采用研效環(huán)境標(biāo)準(zhǔn)化和資源成本高效化雙軌并行策略,建立更高效、經(jīng)濟(jì)、可靠的研發(fā)環(huán)境體系,并打造更先進(jìn)的環(huán)境管理體系。
GPU容器與AI訓(xùn)練,讓業(yè)務(wù)更穩(wěn)定更高效
GPU平臺(tái)是大模型時(shí)代的重要基礎(chǔ)設(shè)施,vivo的GPU平臺(tái)架構(gòu)由物理層、容器平臺(tái)層和AI工程層組成,支撐vivo的智能計(jì)算業(yè)務(wù)。

vivo互聯(lián)網(wǎng)容器架構(gòu)師 陳瀚
vivo互聯(lián)網(wǎng)容器架構(gòu)師陳瀚表示,容器平臺(tái)在大規(guī)模GPU集群,通過(guò)架構(gòu)與性能優(yōu)化、自動(dòng)化運(yùn)維等穩(wěn)定性建設(shè)措施,為AI平臺(tái)提供了堅(jiān)實(shí)的算力底座。容器平臺(tái)在多維度探索降本提效解決方案,提升整體利用率,降低業(yè)務(wù)成本。其中單卡維度的自研虛擬化技術(shù)實(shí)現(xiàn)多容器無(wú)干擾共享,做到"一卡三用"。在單服務(wù)維度的GPU彈性伸縮方案自動(dòng)應(yīng)對(duì)負(fù)載變化,減少閑置與運(yùn)維負(fù)擔(dān)。在多服務(wù)維度的訓(xùn)推潮汐部署方案實(shí)現(xiàn)資源分時(shí)復(fù)用,緩解訓(xùn)練資源短缺。在多機(jī)多卡維度通過(guò)RDMA容器降低跨節(jié)點(diǎn)通信時(shí)延。
vivo Al工程架構(gòu)師劉東陽(yáng)則表示,VTraining訓(xùn)練平臺(tái)是在容器能力之上構(gòu)建,支撐vivo手機(jī)的藍(lán)心小V等核心產(chǎn)品的大模型訓(xùn)練業(yè)務(wù)。在大規(guī)模訓(xùn)練穩(wěn)定性實(shí)踐中,通過(guò)減少基礎(chǔ)設(shè)施高頻故障、完善任務(wù)故障處置流程兩大措施,成功實(shí)現(xiàn)了機(jī)器每日故障率從2%降低到1‰的突破,千卡任務(wù)有效訓(xùn)練時(shí)長(zhǎng)從60%提升到99%,達(dá)到行業(yè)一流水平。另外,平臺(tái)在GPU利用率提升實(shí)踐中,通過(guò)低優(yōu)任務(wù)、訓(xùn)推潮汐部署、GPU虛擬化等策略,深度適配差異化業(yè)務(wù)場(chǎng)景,實(shí)現(xiàn)了資源的高效復(fù)用。

未來(lái),容器平臺(tái)將重點(diǎn)建設(shè)多集群調(diào)度、在離線GPU混部、GPU資源池化等能力,AI訓(xùn)練平臺(tái)則聚焦大模型訓(xùn)練穩(wěn)定性、訓(xùn)練全流程支撐與GPU資源精細(xì)化運(yùn)營(yíng)。致力于讓vivo智能計(jì)算業(yè)務(wù)更加穩(wěn)定、資源利用更加高效。
(免責(zé)聲明:此文內(nèi)容為本網(wǎng)站刊發(fā)或轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。)

