本文編者為VMware中國資深架構師安浦,解決方介紹基于2024年2月21日VMware by Broadcom 在 Tech Field Day 活動現場AI Field Day 4主題的案詳系列演講整理。演講嘉賓為Chris Wolf,解決方介紹Senior Director of Engineering, AI and Advanced Services,案詳VMware By Broadcom。解決方介紹
內容摘要
-VMware與眾多AI領域ISV廠商有著很好的案詳合作基礎,彼此之間是解決方介紹非競爭性關系,VMware專注于提供AI基礎設施、案詳優化、解決方介紹安全、案詳數據隱私和數據服務。解決方介紹
-VMware從自己的案詳AI實踐中獲益頗多,在有限的解決方介紹預算內實現了更高效的價值。
-VMware Private AI解決方案的案詳優勢:
**為企業AI基礎設施的構建提供更多靈活性和選擇性;
**Private AI解決方案增強了隱私保護和安全控制能力;
**實現快速創建AI工作集群并加載預裝模型,極大簡化部署流程,解決方介紹提高工作效率;
**更加智能地管理AI算力資源,實現不同應用場景之間的GPU算力分配,從而提高資源利用率;
**避免產生新的AI算力池運維孤島,實現與現有運營工具集成,降低總體擁有成本;
**在用戶既有的VMware環境中直接應用AI模型, 實現既有數據湖與新的AI模型連接的能力;
**VMware Private AI Foundation,通過與業界領先AI廠商的產品集成,以及推廣開源參考架構,加速將AI計算和模型引入企業數據中心、公有云和邊緣設備的進程。
-VMware攜手客戶和ISV生態伙伴共同打造Private AI開放生態環境。
VMware與眾多AI領域ISV廠商有著很好的合作基礎
VMware在2023年8月推出了Private AI,其目標是加速實現AI的普惠化,并激發各行業的業務創新能力。在這一過程中,我們認識到隱私和控制對于許多組織至關重要,這也是VMware希望集中關注并提供支持的領域。
我們注意到,當前許多AI獨立軟件供應商(ISV)非常愿意與VMware合作,因為在AI基礎設施、優化、安全、數據隱私和服務方面,VMware并不與他們產生直接競爭關系。VMware明確表示,頂層的AI服務是這些ISV的專業領域,而VMware則專注在為AI基礎設施層面提供平臺技術支持。與之相反,在公有云領域中,公有云服務商經常也提供頂層AI服務,不可避免的構成與ISV的直接競爭關系。對于AI生態環境的眾多ISV廠商而言,選擇與VMware合作共同進入客戶的項目,需要彼此之間建立充分的信任關系,VMware清晰的定位有助于解決這一問題。
VMware自身也是AI技術發展的受益者
在AI實際應用方面,當前許多組織的研發團隊都在研究代碼輔助生成這一領域,VMware也在該領域進行了探索。比如,我們針對C開發的ESXi內核進行了嘗試,選擇了一個極具挑戰性的使用場景,希望我們的軟件工程師能夠從中受益。當我們開始采用這個基于開源模型打造的內部輔助代碼生成解決方案時,軟件工程師的接受率高達92%。這讓我們備受鼓舞,證明了我們可以在有限的預算內實現更高效的價值。
我們也進行了一項試點項目,并正在進行額外的測量工作。我們關注的是能夠嚴格控制的AI代碼開發領域。對于VMware而言,一個優勢是我們內部本就會進行復雜的代碼掃描,以確保開源合規性。我們在這方面投入了大量精力,確保對使用的任何開源代碼都有適當的合規引用。正式藉由這些內部流程,我們得以取得成功。目前,我們仍在進一步努力,以確定如何為AI生成的代碼提供適當的合規引用,并努力推動這一領域的發展。
和許多企業一樣,VMware也具有探索精神。我們持續關注著GitHub Copilot的發展。然而,我們最初的使用案例主要集中在上游開源,因為這不會對我們的知識產權或其它方面產生任何影響。VMware設有AI委員會,并制定了相應的治理實踐。在這個領域,我們認為自己領先于許多尚未建立此類治理機制的公司。這是一個持續努力的過程,但無疑我們已取得了顯著的進展。
至于呼叫中心的解決方案,每個組織都有這方面的需求,無論是高級信息檢索還是處理醫療保健、法律、銷售或客戶支持等領域的數據。能夠快速為技術支持人員提供答案,都是具有實際的商業價值的。我們的解決方案可以為你提供幫助,并且在數據收集方面,也為用戶提供許多開源解決方案以供選擇。例如,圍繞LlamaIndex的開源社區提供了許多數據采集器,這些解決方案通常可以在幾周內甚至更早地被啟用。這些早期使用案例為我們展示了其強大的潛力。
VMware Private AI解決方案的優勢
從VMware Private AI解決方案的特定優勢來看,我們追求的是確保隱私和安全性下的靈活性和選擇性。無論選擇運行解決方案的硬件還是軟件,我們都希望組織能夠進行有效的AI基礎設施投資,并享有更多的選擇權。商業AI服務、云AI服務或開源AI服務,不同的業務線可能有不同的優先事項或偏好。因此,投資可以支持上述所有類型AI服務的基礎設施,對于實現性能優化、簡化部署以及降低風險至關重要。
在部署方面,我們正在做一些其它公司尚未涉足的事情。這也涉及到實施方式和性能。通過我們的方案,用戶可以在大約3秒鐘內啟動一個AI集群,并將您的模型預加載到內存中。這在公有云或裸機上都是無法實現的。我們從行業合作伙伴那里了解到,在裸機上完成這一操作通常需要5到7分鐘。
用戶關注如何最有效的管理其IT環境中的AI算力資源。當需要同時管理多個項目,而每個項目都要使用一個獨立的集群或云服務時,是無法做到這一點,而且這些資源的實際利用率會出現高峰與低谷。
客戶選擇VMware的主要原因有如下幾個:
首先,我們擁有被市場廣泛認可的虛擬化基礎設施層,這意味著客戶可以更加智能地管理內存訪問、GPU訪問以及網絡容量需求,并在這些不同的應用場景之間實現資源的智能分配。正如之前提到的,對于推理應用場景,可能只需要部分GPU資源,而VMware在這方面的技術非常成熟,例如DRS,它可以根據不同工作負載的容量需求進行負載均衡。
其次,從管理操作的角度來看,客戶不希望為AI工作負載建立獨立的運維孤島,因為這涉及大量的資金投入、新工具、新流程等。通過VMware解決方案,客戶可以利用現有的工具集和長期執行的流程,從而避免投資于全新的工具孤島環境。
這兩點因素使得我們的客戶期望通過我們的解決方案技術棧實現更低的總體擁有成本。
第三點是選擇權。我們專注于這些領域,并希望與合作伙伴在這些領域建立合作關系。這同樣令客戶感到興奮,因為他們不希望被迫接受單一的AI技術堆棧,而是希望保留自己的數據和選擇的存儲方式,同時能夠引入新的AI應用服務。
在某種程度上,VMWare正在拓展自己的業務領域,不再僅限于技術提供商的角色,而是正努力成為客戶的解決方案提供商,但并不僅僅如此。我們也在繼續支持行業解決方案提供商,積極推廣開源技術。我們正在為所有的合作伙伴創建Private AI參考架構和指南,并提供我們的應用供他們使用,甚至正在考慮將其開源。系統集成商可以根據需要自定義和支持這些應用,并為其客戶提供有償服務。我們在能夠增加價值的地方投入資源,分享我們在行業中的最佳實踐,以便其它人也能從中受益。
VMware在AI應用場景方面的另外一個重要優勢,就是許多客戶希望將AI引入他們已有的數據環境中,很多組織在大力推廣AI或LLM之前,已經成功建立并使用了數據湖/倉、商業智能模型等,而這個環境往往是基于VMware底座的。因此,他們希望能夠在現有的VMware環境中直接應用AI模型, 而VMware擁有將這些現有數據湖/倉與新的AI模型連接的能力。
以我之前分享的零售案例為例,他們不希望將所有店鋪的數據傳輸到中央數據湖中進行推理,而是希望能在本地進行快速響應。每家店鋪的AI處理僅需兩個GPU。這是一個真實運行的AI場景,處理24到36個走廊上的攝像頭數據。雖然我不能透露具體的走廊數量,但這樣的應用場景正在不斷增加,對VMware來說具有巨大的價值。客戶希望我們能夠參與這些項目并提供支持。
在解釋為何選擇VMware時,我還想補充一點,我們已擁有眾多安全功能,包括安全啟動和虛擬TPM等,這些功能在保護模型和數據機密性方面至關重要。與第三方身份管理的集成可以使用微分段隔離和分布式防火墻等技術來隔離你的AI模型和服務,這對于不斷發展的組織來說至關重要。
Private AI解決方案下的AI性能表現優異
我想簡要提及一下我們即將進行的另一場演講,屆時我們將深入探討有關性能的問題。
此次展示僅針對某一語言模型的推理基準,與裸金屬相比,在最差情況下,我們仍保持在小于1%左右的水平。而在另一場演講中,我們將展示另一個基準,顯示我們相比裸金屬的性能高出5%或6%,這全賴我們的調度算法以及我們在這一領域所做的努力。
在虛擬化的環境中,可以獲得所有AI計算的優勢,即便是對GPU進行虛擬化和切片,也不會犧牲性能。除非真的在意那1%。如果是這樣,裸金屬應用場景當然是一個不二選擇。但如果不是,就可以從虛擬化的AI算力底座中獲得巨大的收益。
另外,我們在模型訓練方面也有一些基準測試,通常,大型LLM訓練會在裸金屬或公有云上進行,這并非我們的重點。我們的關注點在于微調模型。因此,微調場景和推理場景是你從GPU虛擬化和切片中真正獲得最大好處的地方。若需數十到數百個GPU來訓練大型模型,這暫時可能還不是虛擬化的適用場景,但未來可能會有所變化。當你已擁有足夠的GPU算力容量,并希望將其用于其它用途時,為何不充分利用呢?
與友商合作,基于VCF構建完整Private AI解決方案
VMware提供了一套參考架構供客戶選擇,如果他們希望采取更自助的服務模式,我們也為他們提供了詳盡的指引。然而,我們的長遠目標是希望客戶能夠先構建一個高效的基礎架構,基于VMware Cloud Foundation,然后在此基礎上部署Private AI,包括GPU和AI服務。建議客戶先簡化并優化算力基礎設施環境,這樣就能更好地獲得最終的成本效益。
客戶可以根據自己的需求使用VCF。VMware將推出一個Private AI Foundation,與NVIDIA合作提供附加組件,包括集成的向量數據庫支持等額外功能。客戶可以從VCF開始,購買附加組件以獲得這些功能。對于需要向量數據庫的客戶,這將是一個額外的優勢。我們將所有這些功能整合在一起,提供完整的NVIDIA軟件堆棧,確保所有功能都能無縫集成。
VMware攜手客戶及ISV生態伙伴共同打造Private AI開放生態環境
深入思考我們所精心打造的生態系統,其重要性不言而喻。正如之前提到的,我們專注于AI基礎設施及其上運行的服務。我們的Tanzu團隊與客戶緊密合作,提供定制服務。同時,我們也非常重視合作伙伴群體,今年將有更多合作伙伴加入,共同創造更多的價值。這些合作伙伴不僅限于傳統ISV,還包括那些在云中運行并意識到大量本地應用場景的企業。他們希望把握這些機會,而與VMware合作是實現這一目標的最佳選擇,因為我們始終與客戶業務保持緊密聯系。
VMware AI解決方案相關信息鏈接
Artificial Intelligence Solutions | VMware AI: https://www.vmware.com/artificial-intelligence.html
VMware's Approach to Private AI: https://news.vmware.com/technologies/vmware-technology-private-ai
Deploying Enterprise-Ready Generative AI on VMware Private AI: https://core.vmware.com/resource/deploying-enterprise-ready-generative-ai-vmware-vmware-cloud-foundation