通過(guò) NVIDIA GPU加速平臺(tái),加技Colossal-AI實(shí)現(xiàn)了通過(guò)高效多維并行、速潞異構(gòu)內(nèi)存管理、晨科大規(guī)模優(yōu)化庫(kù)、加技自適應(yīng)任務(wù)調(diào)度等方式,速潞更高效快速部署 AI 大模型訓(xùn)練與推理。晨科
AI 大模型的加技高門(mén)檻成為研發(fā)一大難題
近年來(lái),AI 模型已從 AlexNet、速潞ResNet、晨科AlphaGo 發(fā)展到 BERT、加技GPT、速潞MoE…隨著深度學(xué)習(xí)的晨科興起及大模型橫掃各大性能榜單,AI 能力不斷提升的加技一個(gè)顯著特征是模型參數(shù)的爆發(fā)式增長(zhǎng),這也使得訓(xùn)練模型的速潞成本急劇上升。目前最大的晨科 AI 模型智源悟道 2.0 參數(shù)量達(dá)到 1.75 萬(wàn)億,前沿 AI 模型的大小在短短幾年內(nèi)便已增大萬(wàn)倍,遠(yuǎn)超硬件數(shù)倍的緩慢增長(zhǎng),模型大小也遠(yuǎn)超單個(gè) GPU 的容納能力。
由于單臺(tái)機(jī)器的能力已遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足日益增長(zhǎng)的 AI 訓(xùn)練需求,即便是超級(jí)計(jì)算機(jī),也面臨著當(dāng)硬件堆砌到達(dá)一定數(shù)量后,效率無(wú)法進(jìn)一步提升的瓶頸,浪費(fèi)了大量計(jì)算資源。而分布式并行也與單機(jī)情況差異巨大,通常需要計(jì)算機(jī)系統(tǒng)和體系結(jié)構(gòu)相關(guān)的專(zhuān)業(yè)人員,這進(jìn)一步提高了訓(xùn)練和部署成本。
此外,PyTorch、TensorFlow等現(xiàn)有深度學(xué)習(xí)框架也難以有效處理超大模型,通常需要專(zhuān)業(yè)的 AI 系統(tǒng)工程師針對(duì)具體模型做適配和優(yōu)化。更重要的是,不是每一個(gè)研發(fā)團(tuán)隊(duì)都具備 “鈔” 能力,能夠隨時(shí)調(diào)用大規(guī)模 GPU 集群來(lái)使用大模型,更不用提僅有一張顯卡的個(gè)人開(kāi)發(fā)者。因此,盡管大模型已經(jīng)吸引了大量關(guān)注,高昂的上手門(mén)檻卻令大眾 “望塵莫及”。
NVIDIA GPU 加速
潞晨科技Colossal-AI 大模型開(kāi)發(fā)進(jìn)程
Colossal-AI 基于 NVIDIA GPU A30,為 AI 大模型的普適化做出了一系列貢獻(xiàn):
1、提升 AI 大規(guī)模并行效率
對(duì)于 GPT-3 等超大 AI 模型,僅需一半資源啟動(dòng)訓(xùn)練,或通過(guò)高效并行加速,降低訓(xùn)練成本超百萬(wàn)美元。在訓(xùn)練 ViT 模型時(shí),可以擴(kuò)大 14 倍的 batch size,加快 5 倍的訓(xùn)練速度;對(duì)于 GPT-2 模型,我們可以降低 11 倍的內(nèi)存消耗和超線性擴(kuò)展,訓(xùn)練加速 3 倍,模型大小可擴(kuò)展至 24 倍;對(duì)于 BERT 模型,可訓(xùn)練加速可達(dá)兩倍以上。
2、擴(kuò)大硬件 AI 模型容量
在單個(gè) GPU 上對(duì)于訓(xùn)練任務(wù),可提升模型容量十余倍,將 GPU 訓(xùn)練 GPT-2 和 PaLM 等前沿模型的參數(shù)容量提升數(shù)十倍。
3、豐富 AI 大模型行業(yè)落地
在產(chǎn)品發(fā)布的數(shù)個(gè)月內(nèi),潞晨科技已與數(shù)十家行業(yè)標(biāo)桿企業(yè)建立深度合作,客戶(hù)涵蓋中、美、英、新等全球市場(chǎng),涉及云計(jì)算、芯片設(shè)計(jì)、生物醫(yī)藥、自動(dòng)駕駛、智能零售等領(lǐng)域。例如,潞晨方案將 GPU 優(yōu)化和大規(guī)模并行技術(shù)引入 AlphaFold 的訓(xùn)練和推理,成功將 AlphaFold 總體訓(xùn)練時(shí)間從 11 天減少到 67 小時(shí),且總成本更低,在長(zhǎng)序列推理中也實(shí)現(xiàn) 9.3 ~ 11.6 倍提升。Colossal-AI 團(tuán)隊(duì)還助力百圖生科開(kāi)源全球最快的復(fù)合物結(jié)構(gòu)預(yù)測(cè)模型,可同時(shí)支持蛋白質(zhì)單體與復(fù)合物結(jié)構(gòu)預(yù)測(cè),將原有推理速度提升約 11 倍。
目前,在 NVIDIA GPU 出色的 AI 加速性能加持下,Colossal-AI 已成功應(yīng)用在諸多領(lǐng)域,顯著縮短 AI 大模型開(kāi)發(fā)和部署流程,降低 AI 大模型落地成本。
NVIDIA GPU 產(chǎn)品助力
潞晨科技 Colossal-AI 大模型落地與推廣
NVIDIA GPU 產(chǎn)品與 Colossal-AI 的合作,極大地提升了 AI 大模型的訓(xùn)練與推理流程,顯著提升了用戶(hù)體驗(yàn),為 AI 大模型的落地與推廣做出了重要貢獻(xiàn)。
借助 Colossal-AI 與 NVIDIA GPU 產(chǎn)品,對(duì)于企業(yè)用戶(hù),可將現(xiàn)有項(xiàng)目便捷擴(kuò)展到大規(guī)模計(jì)算集群,使用高效并行技術(shù),以低成本快速完成 AI 大模型的開(kāi)發(fā)部署。對(duì)于計(jì)算資源有限的普通用戶(hù),也能訓(xùn)練百億參數(shù)的大模型,相比現(xiàn)有主流方案,可提升參數(shù)容量十余倍,降低了 AI 大模型微調(diào)和推理等下游任務(wù)和應(yīng)用部署的門(mén)檻。
潞晨科技致力于將軟件系統(tǒng)設(shè)計(jì)與硬件架構(gòu)深度融合,實(shí)現(xiàn)一體化、智能化、自動(dòng)化的人工智能計(jì)算服務(wù)。NVIDIA 初創(chuàng)加速計(jì)劃為我們提供了技術(shù)支持、市場(chǎng)宣傳、業(yè)務(wù)對(duì)接等一列的支持。潞晨科技也參加了 2022 NVIDIA 初創(chuàng)企業(yè)展示活動(dòng),并進(jìn)入了最終展示,借此獲得了更多生態(tài)關(guān)注。
NVIDIA GPU 產(chǎn)品作為 Colossal-AI 算力基礎(chǔ),本次雙方的深化合作將促進(jìn)潞晨科技與 NVIDIA 共同探索 GPU 如何更有效地應(yīng)用在訓(xùn)練和推理 AI 大模型中,為 GPU 硬件與 Colossal-AI 軟件系統(tǒng)的共同進(jìn)步打下良好基礎(chǔ)。雙方將共同努力推動(dòng) AI 大模型的普世化進(jìn)程,不斷解放和發(fā)展 AI 生產(chǎn)力。
——潞晨科技創(chuàng)始人尤洋博士
關(guān)于潞晨科技
潞晨科技主營(yíng)業(yè)務(wù)包括分布式軟件系統(tǒng),大規(guī)模人工智能平臺(tái)和企業(yè)級(jí)云計(jì)算解決方案。公司旨在幫助企業(yè)最大化人工智能部署效率的同時(shí)最小化部署成本。其核心產(chǎn)品面向大模型時(shí)代的通用深度學(xué)習(xí)系統(tǒng) Colossal-AI,涵蓋高效多維自動(dòng)并行、異構(gòu)內(nèi)存管理、大規(guī)模優(yōu)化庫(kù)、自適應(yīng)任務(wù)調(diào)度等自研技術(shù),可高效快速部署 AI 大模型訓(xùn)練和推理,兼容低端設(shè)備,顯著縮短 AI 大模型訓(xùn)練和推理時(shí)間、降低訓(xùn)練和推理成本,減少學(xué)習(xí)和部署的人力成本。
審核編輯:湯梓紅