一位國產大模型算法工程師在接受「甲子光年」采訪時的吐槽,可以說是非常到位了。
它準確地闡述 AI 業內一個所有人「心照不宣」的公開秘密。
所有人都知道,大家卻都盡量不「直視」它,那就是「偷數據」。
最近,「The Information」戳破了這層紗,道出大模型「套殼」中最糟糕的一種形態。而它背后的數據之戰,也在今年獲得了更多關注。
讓模型走向同質化的「數據捷徑」
如果所有人都用一樣的數據,你又怎么會比其他人好呢?
投資了 OpenAI 競爭對手 Anthropic 的門羅風投(Menlo Ventures)總經理 Matt Murphy 評論道。
大家都知道,在大模型訓練過程中,數據至關重要,并且在不同階段的側重點也有所差異。
在訓練基座模型時,數據追求的是「量」,對算力要求也是極高,它決定了大模型對事物的基本「理解能力」。
顯然,不是所有初創企業都能給得起這個費用和時間。所以很多創業公司會跳過第一步,直接用 Meta 或 Mistral AI 開源的模型來用。
在這個基礎上,創業公司需要針對自己的產品專注方向來對模型進行微調 —— 數據輸入量相對少,但更具針對性和高質量,可以幫助模型成為特定領域的「專家」,做出產品差異性。
在這個階段,開發者需要輸入「問題」「回答」,試圖為模型建立特定「聯想」傾向。
這也是「偷數據」出現的環節。
因為 OpenAI、Anthropic 和 Google 這類大公司有資源去完善地完成兩個階段的訓練,所以它們的模型所輸出的結果質量也相對較高。
缺乏自有數據的初創公司,會購買 GPT-4 這類最新模型的付費賬戶,然后根據自己模型訓練的需要去向 GPT-4 提問,再把回答和提問問題一并輸入到模型訓練。
譬如,主打編程細分領域模型的開發者可以直接輸入一段代碼,然后問 GPT-4 這段代碼有什么問題,這樣就生成了一個數據材料。
理論上,大公司們并不允許如此操作。
然而,有消息稱 OpenAI 的 Sam Altman 在去年的一次會議上對創業者說,他們可以這樣去做。這固然讓當下的創業者安心了一些,但誰也說不準哪天 Altman 就決定要把這「特權」收回去。
Google 去年也有自己的「數據門」—— 不僅被指用百度的文心一言生成的中文數據來訓練 Gemini,還有員工因 Google 用 ChatGPT 生成的數據訓練自己的模型怒而辭職。
在行業整體「默許」下,這種情況變得越來越普遍。
幫助開發者研發對話式 AI 的 Unsloth AI 聯合創始人 Daniel Han 表示,其客戶中大概有一半的人都會用 GPT-4 或者 Anthropic 的 Claude 生成的數據來優化自己的模型。
原本用來分享有趣 ChatGPT 對話的工具 ShareGPT 成為了不少公司直接扒數據的地方,而類似 OpenPipe 這類工具則甚至可提升整個過程的自動化程度。
結果就是,現在市面上有越來越多創業公司提供大同小異的模型。這甚至衍生出如舊金山的 Martian 一般,專門為需要用 AI 服務的企業尋找「平替」方案的創業公司。
但投資人并不喜歡這種被欺騙的感覺。
正如《紐約時報》在最近文章的指出,目前 AI 行業缺乏標準和評測體系,人們很難統一標準地了解不同模型的表現差異或優勢所在。
這讓投資人更重視 AI 創業公司訓練數據的來源。Radical Ventures 合伙人Rob Toews 強調說:
AI 模型訓練數據的質量和來源已經成為其中一個最重要的熱點關注之一。沒人知道未來會怎樣,但任何在數據來源上不謹慎或不具備策略性的 AI 創業公司都將落后。
數據大戰中,「沉默」成為了共鳴
如果說「缺芯」是 2023 年 AI 行業的共識,那「缺數據」則是 2024 年的新主題。不僅創業公司缺,大公司更缺。
無論體量是大還是小,為了獲得數據,這些公司都開始在灰色地帶徘徊。
早在 2021 年,OpenAI 就面臨了數據短缺問題。
雖然有員工提出行為不當性憂慮,最后 OpenAI 還是寫了一個語音轉文字工具 Whisper 來將超過 100 萬小時的 YouTube 視頻轉為文字,用作 GPT-4 訓練。
在這次行動中,OpenAI 總裁 Greg Brockman 還親自出馬幫忙收集視頻。
知情人士透露,當 Google 發現 OpenAI 的所作所為后,它并沒有揭發斥責這些侵害創作者版權的行為,因為,Google 也要做同樣的事情。
Google 發言人 Matt Bryant 回應稱,公司對 OpenAI 的行為并不知情,且嚴禁未經授權的數據抓取。
除了 YouTube 以外,三位知情人士表示,Google 也在盯著旗下線上協作文檔工具 Google Doc 里的數據,但其隱私政策限制了 Google 使用這些數據的方式。
去年 7 月,Google 更新了隱私政策,明說可通過收集網絡上的公開信息或來自其他公共來源的信息來訓練 AI 模型。
對于在 AI 領域「起了大早卻趕了個晚集」的 Meta 來說,雖然有法務曾警告過版權問題,最后也是決定跟隨 OpenAI 的「行業先例」去使用有版權保護的書籍、文章等材料。
泄露出來的錄音還表明,Meta 高管們一致同意,出事了可用 2015 年作家協會訴 Google 案失敗的先例來辯護。
至于看起來應該是 Meta 最大優勢的 Facebook 和 Instagram,事實上可用數據并不多,很多 Facebook 用戶都刪掉了自己早期發布的內容,而社交媒體通常也不是人們愛用來發布長篇內容的地方。
這些巨頭們不愿言說的過往,構成了 AI 行業在訓練數據上一致的閃爍其詞。
Adobe 算是其中鮮有積極討論自家模型訓練數據的大公司。
最近,它也「塌房」了。
Adobe 一直以來標榜公司是和創作者站在同一邊,堅定只使用自家獲得授權的圖庫來訓練模型,不會像 Midjourney、Dall-E 那樣擅自用有版權保護的圖像素材訓練。
直到有人發現,Adobe 的訓練數據里其實有包括 AI 生成圖片,而且 Adobe 也是知情的。
雖然 Adobe 強調,模型的訓練數據里只有 5% 左右的圖像是 AI 生成的,但無論如何那些圖像也是通過侵害創作者版權利益而造的文生圖模型做出來的,因此并不完全「道德」。
這個月初,Adobe 高級副總裁 Ashley Still 還在一場公開活動上說:
我們在推出 Firefly 時,有企業用戶會來跟我們說:「我們很愛你們在做的事,真的非常感激你沒有盜取我們在網上的知識產權。」
不知道「塌房」消息出來后,這位企業用戶會作何感想。
「榨干」互聯網后,下一步在哪?
我們曾以為互聯網「浩瀚無垠」,直到現在大語言模型已經「吃不飽」。
兩年前,研究機構 Epoch 的 Pablo Villalobos 指出,高質量數據很有可能會在 2024 年中期出現需求超過供給。他們現在樂觀了一點,認為這個情況會在 2028 年才出現。
即便如此,OpenAI 現在可能也已經在忙了。
Epoch估算,GPT-4 所用訓練數據約為 12 萬億 token,根據尺度定律(Scaling Law),要訓練出被寄予厚望的 GPT-5 大概要 60-100 萬億 token。
如果按這個標準,現有的高質量文字數據和圖像數據加起來體量根本不夠,還差 10-20 萬億 token。
改變迫在眉睫。
Sam Altman 之前也暗示過,OpenAI 在找尋新的出路:
我想,那個追求龐大模型的時代已經快要到頭了。我們將用其他方法來讓它們變得更好。
與此同時,消息人士稱 OpenAI 和 Google 都考慮做一套可以丈量特定數據對模型訓練貢獻程度的系統,這樣好給提供這些數據的人計算要支付的費用,但目前還沒有什么進展。
而在這些開拓數據和創新技術實現之前,有一件事 AI 創業公司現在就有能力但不一定愿意做的事 —— 提高透明度,打破沉默。
如果這也做不到,我們又怎能相信這些公司能做出對社會負責任的 AI 產品?
文章來源:APPSO