谷歌打響AI模型反擊戰(zhàn)。測評超
北京時間12月7日凌晨,數(shù)據(jù)谷歌宣布推出其最通用、測評超功能最強大的數(shù)據(jù)新大型語言模型Gemini 1.0。
據(jù)介紹,測評超針對不同場景,數(shù)據(jù)Gemini 1.0包含三個版本:適用于高度復(fù)雜任務(wù)的測評超Gemini Ultra、適用于各種任務(wù)的數(shù)據(jù)最佳模型Gemini Pro和適用于手機等端側(cè)設(shè)備的Gemini Nano。
在模型架構(gòu)方面,測評超Gemini 1.0采用Transformer架構(gòu),數(shù)據(jù)采用高效的測評超Attention機制,支持32K的數(shù)據(jù)上下文長度。此外,測評超該模型具有復(fù)雜多模態(tài)推理能力,數(shù)據(jù)可以同時識別解文本、測評超圖像、音頻、視頻和代碼五種信息。它能夠發(fā)現(xiàn)大量數(shù)據(jù)中難以辨別的知識,因此能夠更好地理解微妙的信息,并回答復(fù)雜的問題。這使得它特別擅長解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理。
例如,Gemini 能夠獨立批改物理作業(yè),在正確“讀懂”題目、識別凌亂手寫筆跡的同時,指出學(xué)生在解題過程中的錯誤,并給出正確答題步驟。通過圖像和語音輸入,Gemini可以指導(dǎo)做菜,并在不同階段提出相應(yīng)的建議。
在編碼能力上,Gemini可以理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼。同時,Gemini還可以用作更高級編碼系統(tǒng)的引擎。
谷歌聲稱,Gemini Ultra以90.0%得分成為第一個在MMLU(大規(guī)模多任務(wù)語言理解)測試中超過人類專家的模型。記者了解到,MMLU是一個結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等57個科目的測試集,用于測試世界知識和解決問題的能力。相比于其他測試集,MMLU的廣泛性和深度更強,特別是測試大模型在復(fù)雜和多變的真實世界場景中的表現(xiàn)。
“Gemini是我們最強大的模型。通過吸收大量的信息,它可以理解我們四周的環(huán)境,理解我們的思維方式,并有所產(chǎn)出。”谷歌DeepMind首席執(zhí)行官、Gemini團隊代表德米斯·哈薩比斯(Demis Hassabis)介紹說。
同時,他也正面談及Gemini與GPT-4的對比。“我們運行了32個完善的基準(zhǔn)測試來比較Gemini和GPT-4,從廣泛的整體測試(如多任務(wù)語言理解基準(zhǔn)測試)到比較兩個模型生成Python代碼的能力。我認為我們在32項基準(zhǔn)中的30項中大幅領(lǐng)先。”哈薩比斯說。
在Gemini發(fā)布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當(dāng)中收獲的評價一直不高,相對于業(yè)界領(lǐng)軍的GPT-4差距很大。Gemini的發(fā)布,標(biāo)志著谷歌邁進新紀(jì)元的開始。
目前,Gemini Pro和Gemini Nano可開始應(yīng)用于在聊天機器人Bard和智能手機Pixel 8 Pro中,并將很快與谷歌服務(wù)中的其他產(chǎn)品集成,包括Chrome、搜索和廣告等。最強大的Gemini Ultra則將在明年發(fā)布。
責(zé)任編輯:張維佳