數字孿生可以說是千行物理世界和智能世界的一次經典交匯,也展示出了千行百業融合數字技術后的百業轉型實踐。NVIDIA認為,融合數字孿生需要具備四種特征:物理上的數字實踐準確性與真實性,必須遵守物理定律;不間斷的技術與物理世界進行同步;以精準的時間運行;包括多個自治系統。自創立之初,轉型NVIDIA就致力于對虛擬世界的千行模擬,并隨著AI/ML等技術的百業發展,構建了基于NVIDIA Omniverse平臺的融合數字孿生,為工業和工程提供了大規模精確模擬。數字實踐
“隨著互連的技術虛擬世界持續推動下一代人工智能工作負載的發展,NVIDIA從工業和工程的轉型角度來重新審視虛擬世界,從而構建了Omniverse,千行 創建和模擬與現實世界無法區分的百業虛擬世界平臺,為實現數字孿生模型鋪平了道路,融合并廣泛應用于機器人、自動駕駛汽車、智能工廠和氣候研究等領域。”NVIDIA網絡技術專家崔巖說。
NVIDIA幫助寶馬集團構建了未來工廠的數字孿生實踐,后者在開工前就在模擬環境中構建了整條生產線和生產流程,以及機械手自動化配置等功能,預先實現了工廠內所需的所有設計和匹配。這一切離不開NVIDIA加速計算的協助。NVIDIA OVX專為通過數據中心進行大規模工業數字孿生提供技術支持,以實時創建和運行非常復雜的模型和逼真的仿真環境,該系統結合了高性能 GPU 加速計算、圖形處理和AI并配備了高速存儲訪問、低延遲網絡、精確計時,具備創建逼真數字孿生所需的性能。
作為OVX計算系統的基礎構建塊,OVX服務器由8顆NVIDIA A40 RTX GPU、3塊NVIDIA ConnectX-6 Dx 200Gbps智能網卡、兩顆至強白金8362可擴展處理器、1TB系統內存和16TB NVMe存儲組成。通過與NVIDIA Omniverse Enterprise相結合,OVX提供了一個完全集成的平臺,可針對各種規模的數字孿生轉變復雜的工作流程。今年晚些時候,NVIDIA OVX將通過浪潮、聯想和超微上市。
NVIDIA OVX服務器
NVIDIA OVX POD是經過NVIDIA驗證的計算系統,旨在進一步加速數字孿生的構建和部署。NVIDIA OVX POD包含8至16臺OVX服務器,可與網絡結構、存儲和企業級軟件優化組合,為要求嚴苛的工作負載提供出色的性能。OVX計算系統最多可擴展到32臺OVX服務器,即一個可擴展單元,無需額外開銷或重新布線。OVX SuperPOD 架構支持部署一個或多個 OVX 可擴展單元,可提供低延遲網絡、帶寬和計算性能,滿足工廠、城市或世界規模的大規模復雜仿真和實時數字孿生的需求。
OVX SuperPOD和OVX POD多服務器計算系統配置了NVIDIA Spectrum-3交換機,所提供的200Gbps以太網網絡架構可以把32臺OVX服務器與高速網絡和高速存儲連接起來。在第二代的OVX SuperPOD中,會采用Spectrum-4 400Gbps以太網交換機,以帶來更高的吞吐量、更好的服務質量、更高的安全性、更低的功耗和成本,以及納秒級的計時精度,用于打造更精準、實時性更高的數字孿生基礎設施,適用于云和邊緣等環境,滿足大規模云計算、企業人工智能和模擬仿真性能優化等場景需求。
NVIDIA OVX SuperPOD
NVIDIA Spectrum-4是全球首個400Gbps端到端以太網網絡平臺。NVIDIA Spectrum-4交換機的交換吞吐量比前幾代產品高出四倍,達到51.2Tbps,線速加密帶寬為12.8Tbps,包轉發速率達到37.6Bpps,提供了64個800Gbps端口,把端口一分為二后支持最高128個400Gbps端口。該平臺由NVIDIA Spectrum-4交換機系列、NVIDIA ConnectX-7智能網卡、NVIDIA BlueField-3 DPU和DOCA片上數據中心基礎設施軟件組成,能夠大幅加速大規模云原生應用。與上一代產品相比,其每個端口的帶寬提高了兩倍,交換機數量減少到十二分之一,功耗降低了40%。
NVIDIA Spectrum-4平臺
NVIDIA Spectrum-4以太網交換機集成了交換芯片、網絡操作系統和網絡運維工具,通過NVIDIA BlueField DPU或NVIDIA ConnectX智能網卡,將NVIDIA DGX、EGX、HGX、OVX計算平臺與加速的以太網解決方案有效連接起來。其中,交換芯片是NVIDIA自研的Spectrum ASIC,基于臺積電4N制程工藝,包含1000多億個晶體管,并且經過簡化的收發器設計,可以提供更強的高性能交換能力,其上運行著NVIDIA CUMULUS或SONIC網絡操作系統來進行交換機的管理和配置。同時,還配有NVIDIA NetQ、NVIDIA Air等運維部署工具。
NVIDIA Spectrum-4 400GbE交換機
NVIDIA NetQ可以采集整個網絡的運行情況,在做出相應的驗證、故障排除、遙測、網絡分析、變更配置或部署調整時,可以進行快速變更驗證和部署。NVIDIA Air類似于網絡數字孿生,可以在沒有設備、沒有搭建具體網絡的情況下,輔助網絡管理員建立孿生網絡,簡化網絡部署。如果在虛擬環境中已經把數百臺交換機、服務器、拓撲做了模擬配置,生效了更新的配置,可以通過孿生網絡進行驗證,之后再從孿生網絡應用到物理網絡和生產網絡,從而大幅減少網絡故障等問題,幫助交換機部署節省95%的時間。
具體來說,NVIDIA Spectrum-4交換機的特性主要有三個方面。第一是自適應路由,過去,靜態哈希的方式會決定某一個數據流是通過上連鏈路的哪一條鏈路進行轉發,但如果某一個鏈路出現擁塞,其他數據要通過時就要等待,并且由于算法問題導致空閑鏈路無法轉發特定數據流,使得排在數據流尾部的數據包,延遲就會大幅提升,甚至會達到2.5倍的延時,讓網絡性能急劇下降。
相比之下,多鏈路上傳負載均衡支持上傳鏈路端口的選擇,更好的利用上連鏈路的轉發資源,減少鏈路擁塞。同時,BlueField DPU和ConnectX智能網卡也會完成一些無序處理包的排序以供主機使用。引入自適應路由之后,擁塞時的數據流會被分配到空閑鏈路傳輸,更好的支持像RoCE和存儲上的加速功能,實現高效率的網絡架構,降低了延遲,讓整體網絡性能提升15%。
第二是高效網絡大規模加速Omniverse,傳統的葉脊結構數據中心架構分為兩個層次,一類是機柜置頂交換機,另一類是核心交換機,連接成兩層數據中心網絡,這也是自適應路由所應用的環境。使用一臺Spectrum-4交換機可以實現相當于過去12臺交換機的網絡能力,管理運維難度更為簡化,除了可以節省12倍的物理空間,還帶來了10倍的能耗減少和3倍的延遲降低。在第二代Omniverse SuperPOD中,會連接128節點的OVX服務器,網絡上的每條鏈路可以提供400Gbps的高帶寬能力。
第三是Spectrum的加密功能,多云的異地部署會引發企業對數據安全的擔憂,因此需要在數據中心的兩端進行加密。而在Spectrum交換機中,可以實現VXLANSec基于MACsec技術的加密,采用安全DCI隧道,讓兩個數據中心之間可以通過公共基礎設施(經過加密)、Internet和城域網連接,可以滿足5G、邊緣到數據中心的用例,保障混合云的安全性,為加密流量提供3倍加速,在確保數據可靠性的同時也節省了客戶的投資。
Spectrum-4以太網網絡平臺的另外兩個組成部分是ConnectX-7智能網卡和BlueField-3 DPU,其中,ConnectX-7支持10Gbps-400Gbps的多種速率以太網網卡,可以為云、電信、人工智能等企業工作負載提供數據中心規模的硬件加速,加速網絡、存儲、安全和管理服務,并且包括加速軟件定義網絡數據包處理(ASAP2)的技術,可以在不消耗主機CPU的條件下提供線速性能,硬件引擎能夠通過TLS、IPsec和MACsec在線加密/解密功能卸載和加速安全。同時,可以通過RoCE和GPU Direct存儲實現高性能存儲和數據訪問,并通過RoCE和TCP加速NVMe-oF,為數據中心應用程序和時間敏感型基礎設施提供極其準確的時間同步。
NVIDIA BlueField-3 DPU是第三代片上數據中心基礎設施,可以支持從云到數據中心,再到邊緣構建軟件定義、硬件加速的IT基礎設施。新一代的DPU具備從應用程序卸載、加速和隔離軟件定義網絡、存儲、安全和管理功能,可以顯著提升數據中心的性能、效率、可擴展性和安全性。作為首款400Gbps DPU,顯著提高數據中心的性能效率,可擴展性和安全性,BlueField-3的網絡帶寬和網絡管道較上一代增加兩倍,主機帶寬增加四倍,Arm CPU核的算力提升四倍,內存提升五倍,支持全新數據通路加速。同時,還有著四倍的IPsec加速、兩倍的TLS加速和全新的MACsec加速,以及兩倍的存儲IOPs、兩倍的存儲加密和全新的NVMe/TCP加速。該芯片集成了DDR5內存控制器和第五代PCIe交換機,支持L2到L4網絡加密和專用的加速引擎。
此外,NVIDIA在軟件方面提供了專為BlueField DPU打造的DOCA SDK軟件框架,可以讓開發者在靈活、開放的環境中進行基于DPU的應用程序和服務開發,來調用相應的硬件加速功能。隨著DPU的演進,DOCA也會持續向后兼容,同時保持對前代DPU軟件的支持,讓用戶不用經過過多的移動或改造就能應用最新一代的BlueField DPU的平臺。
“數據中心的網絡必須具備可擴展、低延時和精準時間的特性,數字孿生需要這些能力,隨著數字孿生的應用,數據中心可以隨著這些應用負載增強擴展能力,低延時則是要提供更高的網絡性能保證數字孿生的實時性。”崔巖表示,“NVIDIA Spectrum-4 400Gbps端到端以太網絡平臺可以在自動駕駛汽車、智能工廠、數字孿生方面提供極致的性能、高級的安全性和強大的功能,來實現大規模、高性能、虛擬化和模擬仿真的應用。”