12月13日,鄭緯在第二屆數據安全治理年會上,民院中國工程院院士鄭緯民表示,士諫我國人工智能企業正面臨“國外一卡(GPU)難求,言國國產卡使用意愿低”的發展現狀,應從軟硬件兩方面突破瓶頸,關鍵完善國產GPU硬件生態,問題優化大模型基礎設施。鄭緯
我國人工智能產業面臨軟硬件兩方面瓶頸
鄭緯民提出了算力“三大定律”:人類已經進入以算力為核心生產力的民院數字經濟時代,算力就是士諫生產力,這是言國“時代定律”;當下,算力每12個月就增長一倍,發展算力資源增速顯著,關鍵已經打破摩爾定律,問題這是鄭緯“增長定律”;算力每投入1元,就帶動3-4元GDP經濟增長,這是“經濟定律”。
近年來,我國人工智能產業呈指數級增長。鄭緯民表示,預計到2025年,中國人工智能產業規模將超過4500億元,帶動產業規模超1.6萬億元。
鄭緯民直言,我國人工智能產業正面臨著軟件、硬件兩方面的瓶頸。
從硬件角度看,一方面,我國國產芯片產量不足。鄭緯民表示,2021年,我國人工智能服務器芯片總用量100萬片,其中,美國英偉達占95%左右,國產芯片出貨量不到5萬片;另一方面,國產GPU硬件競爭力不足,并未真正受到市場認可。
從軟件角度看,我國在算法等技術方面仍然有所欠缺,當前,谷歌和Meta的人工智能算法開發框架占中國人工智能市場份額的90%以上。
鄭緯民坦言,目前我國人工智能企業正處于“國外一卡難求,國產卡使用意愿低”的現狀。要解決當下面臨的問題,一是營造完善的國產GPU硬件生態,二是優化大模型基礎設施架構。
完善硬件生態要做好10個關鍵軟件
鄭緯民認為,要完善國產GPU硬件生態系統,需要做好10個關鍵軟件:能夠降低編寫人工智能模型復雜度的編程框架;為多機多卡提供人工智能模型并行訓練能力的并行加速;能夠提供跨機跨卡的通信能力、支持人工智能模型訓練所需各種通信模式的通信庫;提供人工智能模型所需基本操作高性能實現的算子庫;能夠在異構處理器上對人工智能程序自動生成高效目標代碼的AI編譯器;提供異構處理器上編寫并行程序支持的編程語言;提供在大規模系統上高效調度人工智能任務能力的調度器;針對人工智能應用特點提供高效內存分配策略的內存分配系統;提供在硬件發生故障后快速恢復模型訓練能力的容錯系統;以及支持訓練過程所需數據讀寫的存儲系統。
鄭緯民表示,相比芯片的“硬實力”,其生態才是更加影響使用體驗的因素。“只要生態做得好,國產芯片只需要達到國外芯片性能的60%,客戶就會滿意。”鄭緯民說。
“4個平衡”優化大模型基礎設施
鄭緯民強調,在設計大模型基礎設施時,要思考“4個平衡”的優化問題。
一是半精度運算性能與雙精度運算性能的平衡設計。在計算機系統的內存中,半精度、單精度和雙精度是決定數據計算精確度的度量標準,雙精度比半精度更精密,但同時要占據更多存儲空間。鄭緯民提出,大模型設計中不僅要考慮16位的半精度運算性能,還要考慮支持64位的雙精度運算。他表示,最優的雙精度與半精度運算性能比為1:100。
二是網絡平衡設計。鄭緯民指出,在網絡設計方面,高帶寬、低延遲的網絡是極大規模預訓練模型運行的必要條件。“在訓練過程中,我們采用數據并行、模型并行和專家并行三種不同的并行方式,但這三種方式對互聯有不同的要求。”鄭緯民表示,“只有把通信做好,大模型才能順暢跑通。”
三是體系結構感知的內存平衡設計。通俗而言,大模型在訓練過程中使用的大量數據會產生大量的內存訪問請求;對內存平衡的優化,目的是提升模型訪存性能,從而提高模型訓練效率。
四是輸入輸出子系統平衡設計。鄭緯民指出,機器在執行大規模訓練任務時,發生硬件、軟件錯誤在所難免。針對這樣的情況,容錯檢查點成為了大模型訓練中的一道“保險閘”。容錯檢查點設置不足,會導致模型訓練效率降低;檢查設置過于頻繁,則會浪費大量時間和存儲空間。因此,優化檢查點存儲在大模型訓練中的重要性不言而喻。
“只要以上四點平衡的問題得到解決,一塊GPU就能發揮兩塊的作用。”鄭緯民總結道。
責任編輯:趙強