由于世界各地迥異的建設風土人情,文化偏好與基礎設施建設水平,高性音視頻業務在全球化的端平的基推廣進程中遇到了諸多困難,這也使得元宇宙在未來的臺傳布局中會面臨多種挑戰。為了更好的音元宇宙服務不同地區的用戶,傳音基于終端平臺做出了一系列針對音視頻、礎設影像、施探索游戲等業務的建設優化解決方案,提升了用戶在不同場景下的高性視聽體驗。
本次分享將分為三個部分,端平的基第一部分介紹全球用戶在音視頻業務中的臺傳痛點,包括弱網環境,音元宇宙環溫差異,礎設文化差異,施探索個性偏好差異等;第二部分主要闡述傳音針對不同用戶所研發的建設網絡優化,音視頻影像,游戲體驗優化等技術。為了提前布局元宇宙,并在AIGC時代迎來新的機遇,傳音針對不同地區的人群研發了AI語音,虛擬人等技術;在未來也將在終端平臺搭建異構計算,交互體驗預測等新的技術平臺,這些內容將在第三部分詳細介紹。
文/趙玉東
整理/LiveVideoStack
大家好,首先簡單介紹一下傳音,它是面向非洲、東南亞、拉美的手機終端制造商,在十多年間積累了很多全球化經驗。今天分享的題目是《建設高性能終端平臺——傳音元宇宙的基礎設施探索》,元宇宙是一個綜合了各種音視頻交互(游戲、體驗等)的全方位框架,在這個場景下,有很多可以展開的內容。
接下來做個自我介紹,我叫趙玉東,博士畢業于倫敦瑪麗女王大學,研究方向主要是音頻相關,包括音樂風格建模等。在傳音,我主要負責游戲端音頻探索、性能優化等。
這張圖是Jon Radoff提出的元宇宙構成要素。底層是基礎設施,接下來是人機交互,包括交互體驗和方式等;再往上是去中心化,如邊緣計算、AI代理、區塊鏈等,其相當于元宇宙的機制;空間計算即如何把元宇宙中的虛擬空間和現實進行映射結合,以獲得沉浸感體驗;傳作者經濟和探索發現關乎元宇宙具體如何運作;最上層是在綜合了視覺、聽覺、觸覺等之后,給用戶帶來最終的沉浸體驗。
本次分享主要分為三部分:1、全球化當中的挑戰與痛點;2、針對挑戰和痛點的終端解決方案;3、未來技術探索。
-01-
挑戰與痛點
上圖是元宇宙相關技術的分類,包括應用場景、算力、算法、通信、交互技術、產權規則。對應的,每一類別都面臨相應的挑戰,比如算力會有性能瓶頸,算法模擬的真實世界需要考慮人文文化,在通信層面需要應對不同國家地區的網絡情況等等。
上圖是各國互聯網用戶在本國家的數量占比情況。可以看到,從2005年到2021年,各國的互聯網用戶有明顯的增長,但例如非洲等地的入網人數還是比較有限的,這也一定程度反映了各國網絡基礎設施是參差不齊的,同時也會給用戶服務帶來一些問題和挑戰。
此外,在日常生活中,例如在高鐵和地下車庫、商場等環境中,都會遇到網絡不佳、信號屏蔽的情況,這樣用戶使用網絡時延遲就會變高。
然后是性能瓶頸,在游戲、直播等場景會遇到終端算力問題,面臨全球不同用戶的需求,如何滿足不同機型的使用體驗。
面臨各地不同的氣候環境,終端體驗的差別也是非常大的。
人文文化有時是被忽略的一點。例如某些小語種、音樂偏好、宗教習慣等可能在設備中不被支持,同樣會影響用戶體驗。
在偏好與習慣上,不同地區的用戶會對色彩感知、聲音類型和仿生學定制有不用的偏好和習慣差異。
最后就是需要兼顧全球各地對于隱私數據安全、法律和社會道德的要求。
-02-
終端解決方案
針對以上的問題,我們提供一些相應的解決方案。
例如針對算力,會提供溫升控制和智能算力分配;在算法層面配備色彩增強引擎;通信層面增加本地化網絡治理策略;交互層面涵蓋小語種語音交互;遵守本地的政策法規;根據地區的應用場景做本地化虛擬形象。
接下來將針對以上六個層面展開來講。
1、本地化網絡治理
首先是弱網優化LinkPlus,它是為解決弱網環境下游戲時延高卡頓、視頻難以加載、網頁打開緩慢、視頻電話卡頓、手機在上網場景中發熱嚴重等應用問題二設計的網絡優化引擎。
LinkPlus分為四個版本,目前還在持續優化。
LinkPlus v1.0基于前端反饋機制+AI預測模型的應用單鏈路分流,保持鏈接不斷的情況下實現網絡智能切換和功耗調節;
LinkPlus v2.0基于AI預測模型的多鏈路數據補充解決單鏈路數據弱網問題;
LinkPlus v3.0使用自學習的AI算法打造符合個人使用習慣的網絡生態(AI聯合學習框架);
LinkPlus v4.0是構建端、云、邊全鏈路網絡解決方案。
這是弱網治理的技術架構圖
前端有三個感知模塊,分別是用戶喜好、網絡環境和應用反饋的感知。接著,把對應的感知結果傳到LinkPlus智能調度,以分配不同的網絡。
上圖是LinkPlus功能開啟和關閉情況下在不同弱網環境中的時延對比數據。經過實驗對比發現,LinkPlus可以快速預測網絡變化并尋找切換最優網絡。
上圖是一個實際應用場景的示例
一個用戶的前臺app正在進行游戲,后臺運行著其他app,LinkPlus會感知用戶的使用情況,同時判斷當前的網絡狀態,結合二者把前臺應用分流到狀況較好的網絡,另外網絡QoS處于動態監控,A引擎映射會根據QoS預測QoE。
2、色彩增強引擎
色彩增強引擎(PQE)通過調整畫面的清晰度、飽和度、亮度、對比度等參數優化畫面質量,用戶可以針對某個特定App使用參數優化視覺體驗。
3、智能算力分配
首先是智能超分算法。GPU渲染低分辨率圖像(720p),通過AI-SR超分算法提升其分辨率并智能恢復細節(1080p),以減少GPU算量,降低整理功耗。
智能可變渲染是通過AI識別場景關鍵點位置,降低非焦點區域渲染質量,以達到節約GPU功耗的目的。
智能幀回救系統通過AI算法預測游戲每幀的算量需求,動態調整CPU工作頻率,實現幀內預測與回救,減少掉幀,平衡游戲功耗。
4、智能溫升控制
智能環溫預測是通過獲取到的原始特征如主板溫度、CPU溫度、使用率等,進行數據預處理,結合分類模型進行環境溫度的預測,為手機溫升提供策略支持。
在游戲內可通過懸浮窗快速開啟溫升控制,在開啟溫控策略的情況下,可以根據實時使用情況預測到溫度變化,控制發熱情況,減少限頻卡頓現象。
5、本地化語音交互
我們推出面向新興市場本地小語種的AI語音助手,針對非洲網絡基礎設施特點進行了離線語音交互方案,適配本地口音、場景和領域。
接下來是針對個性化場景的音頻降噪。需要根據當地的噪音場景進行數據收集,建立數據庫,以應對當地個性化需求。降噪效果演示:
6、本地化虛擬形象
傳音擁有億量級的深膚色影像大數據庫平臺,以及相應的圖像算法、國際標準、定制芯片等。
圖為針對印度市場的虛擬人解決方案,和傳音取得的數字人系統基礎能力評測證書。
-03-
未來技術探索
未來技術的探索包括算力增強、網絡深度優化、VR+內容借口、玩法體驗優化等。
首先是網絡深度優化。在預測機制方面,根據QoE和QoS映射關系,進行主動和被動探測,通過決策層然后做出相應的策略。
如圖是未來在算力增強方面需要做的一些探索方向。
傳音除了是終端制造商,目前也有移動互聯的業務,希望結合人因工程和大數據,打造生態化的應用場景。
最后是希望打造全方位玩法的感知優化,包括視覺、聽覺、觸覺和玩法的體驗感知優化。