該藍圖可連接 Cadence、推出ETAP、用于營施耐德電氣和 Vertiv 等解決方案,工廠讓工程師能夠利用數字孿生技術設計、設計測試和優化新一代智能制造數據中心。和運
AI正成為主流,推出推動了對專門用于 AI 訓練和推理的用于營基礎設施的 AI 工廠,以及智能生產的工廠空前需求。
許多 AI 工廠將達到吉瓦級規模。設計建設一座吉瓦級 AI 工廠是和運一項非凡的工程和物流壯舉,需要供應商、推出建筑師、用于營承包商和工程師等數萬名工作人員共同努力,工廠建造、設計運輸和組裝近 50 億個組件和超過 21 萬英里的和運光纖電纜。
為幫助設計和優化這些 AI 工廠,NVIDIA 在 GTC 大會上發布了用于 AI 工廠設計和運營的 NVIDIA Omniverse Blueprint。
在 GTC 主題演講中,NVIDIA 創始人兼首席執行官黃仁勛展示了 NVIDIA 數據中心工程團隊如何基于 Omniverse Blueprint 開發應用,以規劃、優化和模擬一座吉瓦級 AI 工廠。通過連接 Cadence Reality 數字孿生平臺和 ETAP 等領先的仿真工具,工程團隊可以在施工開始前就測試和優化電力、冷卻和網絡。
工程 AI 工廠:仿真優先的方法
用于 AI 工廠設計和運營的 NVIDIA Omniverse Blueprint 使用 OpenUSD 庫,使開發人員能夠聚合來自不同來源的 3D 數據,如建筑本身、NVIDIA 加速計算系統以及施耐德電氣和 Vertiv 等供應商提供的電源或冷卻單元。
通過統一數十億組件的設計和仿真,該藍圖能夠幫助工程師解決以下復雜挑戰:
組件集成和空間優化—可統一 NVIDIA DGX SuperPOD 等系統 50 億組件的設計和仿真。
冷卻系統性能和效率—使用由 NVIDIA CUDA 和 Omniverse 庫加速的 Cadence Reality 數字孿生平臺,模擬和評估 Vertiv 和施耐德電氣的混合空氣和液冷解決方案。
電力分配和可靠性— 使用 ETAP 設計可擴展、冗余的電氣系統,以模擬電力模塊的效率和可靠性。
網絡拓撲和邏輯— 利用 NVIDIA Spectrum-X 網絡和 NVIDIA Air 平臺微調高帶寬基礎設施。
借助 Omniverse 打破工程壁壘
AI 工廠建設中最大的挑戰之一是電力、冷卻和網絡建設等不同團隊各自分離,導致效率低下和潛在故障。
使用該藍圖,工程師現在可以:
在完整背景下協作— 多個專業領域可以并行迭代,共享實時仿真,展示一個領域的變化如何影響另一個領域。
優化能源使用— 實時仿真更新使團隊能夠為 AI 工作負載找到最高效的設計。
消除故障點— 通過在部署前驗證冗余配置,組織可以降低代價高昂的停機風險。
模擬真實條件— 預測和測試不同 AI 工作負載將如何影響冷卻、電力穩定性和網絡擁塞。
通過跨領域整合實時仿真,該藍圖使工程團隊能夠探索各種配置,以模擬所有權成本并優化電力利用率。
實時仿真加速決策制定
在黃仁勛的演示中,工程師能夠實時調整 AI 工廠配置,并立即看到影響。
例如,冷卻布局的微小調整顯著提高了效率,這一細節可能在紙面上被忽略。團隊無需等待數小時獲得仿真結果,而是可以在幾秒鐘內測試和改進策略。
一旦確定最佳設計,Omniverse 就能夠簡化與供應商和施工團隊的溝通,確保建造的內容與模型完全匹配,直至最小的細節。
未來可期的 AI 工廠
AI 工作負載并非一成不變。下一波 AI 應用將進一步推動電力、冷卻和網絡建設需求。用于 AI 工廠設計和運營的 Omniverse Blueprint 通過以下方式確保 AI 工廠做好準備:
工作負載感知仿真— 預測 AI 工作負載的變化將如何影響數據中心規模的電力和冷卻。
故障場景測試— 模擬電網故障、冷卻泄漏和電力尖峰,以確保系統彈性。
可擴展升級— 提前數年規劃 AI 工廠擴展并估算基礎設施需求。
在規劃改造和升級時,用戶可以輕松測試和模擬成本和停機時間,以打造面向未來的 AI 工廠。
對于 AI 工廠運營商來說,保持領先不僅關乎效率,還關乎防止可能導致每天損失數百萬美元的基礎設施故障。
對于一座吉瓦級 AI 工廠,每天的停機時間可能造成超過 1 億美元的損失。通過提前解決基礎設施挑戰,該藍圖降低了風險并縮短了部署時間。
AI 工廠運營的代理式 AI 之路
NVIDIA 正在與 Vertech 和 Phaidra 等重要公司一起致力于藍圖的下一步發展,將其擴展到 AI 支持的運營中。
Vertech 正在與 NVIDIA 數據中心工程團隊共同開發 NVIDIA 的先進 AI 工廠控制系統,該系統集成了 IT 和運營技術數據,以增強彈性和運營可見性。
Phaidra 正在與 NVIDIA 一同將強化學習 AI 智能體集成到 Omniverse 中。這些代理通過實時場景仿真優化熱穩定性和能源效率,創建能夠適應不斷變化的硬件和環境條件的數字孿生。
AI 數據中心熱潮
AI 正在重塑全球數據中心格局。隨著 AI 驅動的數據中心升級預計將投資 1 萬億美元,數字孿生技術不再是可選項,而是必需品。
用于 AI 工廠設計和運營的 NVIDIA Omniverse Blueprint 有望幫助 NVIDIA 及其伙伴生態系統引領這一轉型,幫助 AI 工廠運營商在不斷發展的 AI 工作負載中保持領先地位,最大限度地減少停機時間并提高效率。