昨夜,艦?zāi)1环Q為“法國(guó)版 OpenAI”的開(kāi)源 Mistral AI 再放大招,正式發(fā)布 Mistral Large 旗艦?zāi)P停災(zāi)2⑶彝瞥鰧?duì)標(biāo) ChatGPT 的開(kāi)源對(duì)話產(chǎn)品:Le Chat,直接殺到 OpenAI 家門(mén)口。艦?zāi)?/p>
就在 Mistral Large 發(fā)布前幾個(gè)小時(shí),開(kāi)源全球市值第一的艦?zāi)N④浶寂c Mistral AI 達(dá)成深度合作。未來(lái),開(kāi)源Mistral AI 將獲得 OpenAI 同等待遇,艦?zāi)V苯訉⒛P唾Y源放在微軟云當(dāng)中售賣(mài),開(kāi)源成為第二家在微軟 Azure 云平臺(tái)上提供商業(yè) AI 模型的艦?zāi)?u>公司。
據(jù)Mistral AI CEO Arthur Mensch 透露,開(kāi)源開(kāi)發(fā)這款新模型的艦?zāi)3杀静坏?2000 萬(wàn)歐元(約合 2200 萬(wàn)美元)。
另外據(jù)外媒報(bào)道,開(kāi)源微軟收購(gòu)了少數(shù) MistralAI的艦?zāi)9蓹?quán),這意味著在投資 OpenAI 之后,Mistral AI 成為微軟投資的第二家大模型公司。
但是,作為開(kāi)源公司出道的 Mistral AI ,并沒(méi)有將這款新旗艦?zāi)P烷_(kāi)源。對(duì)此,埃隆·馬斯克評(píng)價(jià)道:“微軟是否讓它們成為閉源代碼?”
Mistral AI 是否走上了 OpenAI 開(kāi)源再閉源的老路?
1.Mistral Large 性能直逼 GPT-4
據(jù)官方新聞稿介紹,Mistral Large 是 Mistral AI 的最新旗艦版,達(dá)到了頂級(jí)的推理能力。它可以用于復(fù)雜的多語(yǔ)言推理任務(wù),包括文本理解、轉(zhuǎn)換和代碼生成。
在常用基準(zhǔn)測(cè)試上 Mistral Large 表現(xiàn)強(qiáng)勁,以 81.2% 的成績(jī)超越了Claude 2、Gemini Pro、GPT-3.5、Llama 2-70B 四款模型,僅次于 GPT-4。
在MMLU(測(cè)量大規(guī)模多任務(wù)語(yǔ)言理解)上,GPT-4、Mistral Large(預(yù)訓(xùn)練)、Claude 2、Gemini Pro 1.0、GPT 3.5和LLaMA 2 70B的比較。
Mistral Large 具有以下特點(diǎn):
它在英語(yǔ)、法語(yǔ)、西班牙語(yǔ)、德語(yǔ)和意大利語(yǔ)方面具有天然的流利度,對(duì)語(yǔ)法和文化背景有細(xì)膩的理解。
它的 32K token 上下文窗口允許從大型文檔中精確地回憶信息。
它精確的指令遵循能力使開(kāi)發(fā)者能夠設(shè)計(jì)他們的審核政策——Mistral AI 用它來(lái)設(shè)置 Le Chat 的系統(tǒng)級(jí)審核。
它天然具備函數(shù)調(diào)用能力。這一點(diǎn),加上在 la Plateforme 上實(shí)施的受限輸出模式,使得應(yīng)用開(kāi)發(fā)和技術(shù)棧現(xiàn)代化能夠規(guī)模化進(jìn)行。
和常用基準(zhǔn)測(cè)試上的頂級(jí) LLM 模型相比,Mistral Large 也表現(xiàn)不俗。
推理和知識(shí)
市場(chǎng)上頂級(jí)LLM模型在廣泛常識(shí)、推理和知識(shí)基準(zhǔn)測(cè)試上的性能:MMLU(測(cè)量大規(guī)模多任務(wù)語(yǔ)言理解)、HellaSwag(10-shot)、Wino Grande(5-shot )、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(55-shot)和TruthfulQA。
多語(yǔ)言能力
Mistral Large 還是一個(gè)語(yǔ)言方面的“多面手”。在法語(yǔ)、德語(yǔ)、西班牙語(yǔ)和意大利語(yǔ)的 HellaSwag、Arc Challenge 和MMLU 基準(zhǔn)測(cè)試中,它的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò) LLaMA 2 70B。
在法語(yǔ)、德語(yǔ)、西班牙語(yǔ)和意大利語(yǔ)的HellaSwag、Arc Challenge和MMLU上,Mistral Large、Mixtral 8x7B和LLaMA 2 70B的比較。
數(shù)學(xué)和編碼
Mistral Large 不僅有強(qiáng)大的語(yǔ)言天賦,數(shù)學(xué)和編碼所代表的邏輯能力也很強(qiáng)。
市場(chǎng)上領(lǐng)先LLM模型在流行的編碼和數(shù)學(xué)基準(zhǔn)測(cè)試上的性能:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8(8-shot )和GSM8K maj@1(5-shot )。
這次和 Mistral Large 一起面世的,還有一個(gè)更“小而美”的 Mistral Small。Mistral Small 的性能超過(guò) Mixtral 8x7B,并且延遲更低,這使它成為開(kāi)放權(quán)重產(chǎn)品和旗艦?zāi)P椭g的一個(gè)精細(xì)的中間解決方案。
Mistral Small 和 Mistral Large 在 RAG 啟用和函數(shù)調(diào)用方面都有相同的創(chuàng)新。
目前,開(kāi)發(fā)者可從兩個(gè)渠道獲取Mistral AI:
La Plateforme:在歐洲的 Mistral 基礎(chǔ)設(shè)施上安全托管,這個(gè)接入點(diǎn)使開(kāi)發(fā)者能夠在全面的模型范圍內(nèi)創(chuàng)建應(yīng)用和服務(wù)。
Azure:Mistral Large 可以通過(guò) Azure AI Studio 和 Azure Machine Learning 獲得,用戶體驗(yàn)與 API一樣無(wú)縫。Beta 客戶已經(jīng)成功使用了它。
自我部署:Mistral Large 環(huán)境上部署,并且可以訪問(wèn)模型權(quán)重。
Mistral Large 在 Azure AI 上的定價(jià)如下:輸出為 0.024 美元 / 1000 token,輸入為 0.008 美元 / 1000 token。相比之下,128K 上下文窗口的 GPT-4 Turbo 定價(jià)為:輸出為 0.03 美元/1000 token,輸入 0.01 美元/ 1000 token。
此外,Mistral AI 還還發(fā)布了首個(gè)對(duì)標(biāo) ChatGPT 的對(duì)話助手 Le Chat,該助手可以在后臺(tái)使用 Mistral Large 或 Mistral Small,或者一個(gè)名為 Mistral Next 的原型模型;并發(fā)布了面向企業(yè)的 Le Chat Enterprise。 值得注意的是,Le Chat 目前還不支持聯(lián)網(wǎng)功能。
2.Mistral AI 與 OpenAI 相爭(zhēng),微軟成最大贏家 ?
Mistral AI 創(chuàng)始人 Guillaume Lample 在X上官宣 Mistral Large 后,圖靈獎(jiǎng)獲得者、Meta 首席科學(xué)家 Yann LeCun(楊立昆)一改往日對(duì) OpenAI 的苛刻態(tài)度,第一時(shí)間發(fā)來(lái)祝賀
還有熱心網(wǎng)友向楊立昆發(fā)來(lái)關(guān)切,并鼓勵(lì)其發(fā)布完全開(kāi)源的 LLama 3。
對(duì)此,楊立昆則希望網(wǎng)友多點(diǎn)耐心。
事實(shí)上,Mistral AI 這個(gè)成立不到 10 個(gè)月的年輕團(tuán)隊(duì)大有扭轉(zhuǎn)局面的氣勢(shì)。
Mistral AI 公司成立于 2023 年 5 月,總部位于法國(guó)巴黎,以一己之力將 LLM 的聚光燈從中美的主戰(zhàn)場(chǎng)拉向了歐洲。
Mistral AI 是開(kāi)源、小模型領(lǐng)域的“先鋒”選手。
Mistral AI 在 2023 年 9 月推出開(kāi)源的 7B 模型,發(fā)布時(shí)間晚于 LLama 2,但并未被 LLama 2 搶了風(fēng)頭。其越級(jí)達(dá)到了大部分模型 20B 左右的水平,實(shí)際使用時(shí)進(jìn)一步微調(diào)的表現(xiàn)也比其他模型更容易學(xué)到領(lǐng)域?qū)S弥R(shí),得到很多開(kāi)源和企業(yè)使用者的認(rèn)可。
Mistral 創(chuàng)始團(tuán)隊(duì)以年輕科學(xué)家為主,其中 7 人來(lái)自 Meta(4位是 Llama 的參與者),3人來(lái)自 Hugging Face,2人來(lái) Deepmind;之前領(lǐng)導(dǎo)過(guò) Llama 1&2、Flamingo(Google DeepMind 論文,GPT-4V 外最重要的多模態(tài)模型)、Chinchilla(Google DeepMind 論文,建立了模型數(shù)據(jù)與參數(shù)量的標(biāo)準(zhǔn))、RETRO(Google DeepMind 論文,第一個(gè)結(jié)合 Retrieval 和 LLM 的大模型)、BLOOM(Llama 1 出現(xiàn)前的最重要開(kāi)源模型)等重要模型。
Mistral AI 的管理層一共四人。
其中,CEO Arthur Mensch 來(lái)自 Deepmind,參與了 Deepmind 的多個(gè)經(jīng)典的模型:Flamingo、Chinchilla、Gopher。
CTO 和 首席科學(xué)家分別是 Llama & Llama2 的核心工程、研究角色(由于離職,并未在 Llama2 論文中體現(xiàn))。Chief Business Officer Florian 則由創(chuàng)始顧問(wèn),Alan 的 CEO 推薦加入。
目前,Mistral 已完成了三輪公開(kāi)融資,總額超過(guò)6億美元。
2023 年 6 月,公司完成 1.05 億歐元(約合 1.13 億美元)的種子輪融資,由 Lightspeed Venture Partners(光速創(chuàng)投)領(lǐng)投,投后估值 2.4 億歐元;
2023 年 12 月,Mistral 完成由 Andreessen Horowitz(a16z)領(lǐng)投,英偉達(dá)、Salesforce、法國(guó)巴黎銀行、美國(guó)風(fēng)投機(jī)構(gòu) General Catalyst 等投資的 3.85 億歐元(約合 4.15 億美元)融資。
2024 年 2 月,微軟入股 Mistral。
據(jù)悉,Mistral公司估值已超過(guò)20億歐元(約合156.2億元人民幣),成為 AI 領(lǐng)域的獨(dú)角獸公司。
自成立以來(lái),Mistral AI 便被認(rèn)為是 OpenAI 有力的競(jìng)爭(zhēng)對(duì)手,并一直堅(jiān)定站在 OpenAI 的“反面——OpenAI 閉源,Mistral AI 開(kāi)源;OpenAI 堅(jiān)定地走“大數(shù)據(jù)+大算力+大規(guī)模參數(shù)”的暴力美學(xué)路徑,Mistral AI 則掀起一輪“小模型”熱潮,在 7B 規(guī)模下不斷再創(chuàng)輝煌。
不過(guò),在OpenAI和MistralAI的較量中,微軟或成最大的贏家,將兩條路線均收入囊中。
此次,微軟與 Mistral AI 的合作重點(diǎn)關(guān)注三個(gè)核心領(lǐng)域:
超級(jí)計(jì)算基礎(chǔ)設(shè)施:微軟將通過(guò) Azure AI 超級(jí)計(jì)算基礎(chǔ)設(shè)施來(lái)支持 Mistral AI,為 Mistral AI 旗艦?zāi)P偷?AI 訓(xùn)練和推理工作負(fù)載提供一流的性能和規(guī)模。
擴(kuò)展到市場(chǎng):微軟和 Mistral AI 將通過(guò)Azure AI Studio和Azure 機(jī)器學(xué)習(xí)模型目錄中的模型即服務(wù) (MaaS) 向客戶提供 Mistral AI 的高級(jí)模型。除了 OpenAI 模型之外,模型目錄還提供開(kāi)源和商業(yè)模型的多種選擇。開(kāi)發(fā)者可使用 Microsoft Azure 消費(fèi)承諾 (MACC)來(lái)購(gòu)買(mǎi) Mistral AI 的模型。Azure 的 AI 優(yōu)化基礎(chǔ)設(shè)施和企業(yè)級(jí)功能為 Mistral AI 提供了向全球 Microsoft 客戶推廣、銷(xiāo)售和分發(fā)其模型的額外機(jī)會(huì)。
人工智能研究和開(kāi)發(fā):微軟和 Mistral AI 將探索圍繞為特定客戶(包括歐洲公共部門(mén)工作負(fù)載)培訓(xùn)特定目的模型的合作。
此外,據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道,微軟對(duì)Mistral AI進(jìn)行了小額投資,但不持有該公司任何股權(quán)。
審核編輯:劉清