據(jù)2月27日路透社研究所報告顯示,全球至2023年底,新聞全球有十國近半(48%)主流新聞網(wǎng)站選擇阻止OpenAI爬蟲,網(wǎng)封另約四分之一(24%)如法炮制封鎖了谷歌人工智能爬蟲。谷歌
該研究團(tuán)隊從德國、爬蟲印度、全球西班牙、新聞英國及美國共計十五家綜合性質(zhì)網(wǎng)絡(luò)新聞來源的網(wǎng)封robots.txt文件著手分析,涵蓋包括《紐約時報》等傳統(tǒng)印刷媒體、谷歌電視廣播公司及數(shù)字原生媒體等多類形式。爬蟲
分析結(jié)果顯示,全球至2023年底,新聞超半數(shù)(57%)的網(wǎng)封傳統(tǒng)印刷媒體如《紐約時報》等已關(guān)閉OpenAI爬蟲,反之電視廣播以及數(shù)字原生媒體相應(yīng)地分別為48%和31%。谷歌而對于谷歌人工智能爬蟲,爬蟲32%的印刷媒體采取相同措施,電視廣播和數(shù)字原生媒體的比率分別為19%和17%。
近期康奈爾大學(xué)研究發(fā)現(xiàn),部分新型人工智能模型僅僅依賴前代模型訓(xùn)練,非依靠人類輸入數(shù)據(jù),引發(fā)“模型崩潰”甚至退化,從而導(dǎo)致生成內(nèi)容出現(xiàn)更多錯誤性和誤導(dǎo)性的訊息。
網(wǎng)站爬蟲具有多種用途,其中Google的Googlebot主要用于抓取發(fā)布商網(wǎng)站并納入搜索查找,OpenAI的GPTBot則負(fù)責(zé)全網(wǎng)搜集訓(xùn)練數(shù)據(jù)以支持旗下的大規(guī)模語言模型ChatGPT等,此類AI工具產(chǎn)出的精準(zhǔn)度與實時性受到很大保障,這也是新聞發(fā)布商頻頻發(fā)布此類內(nèi)容的原因所在:大語言模型給予優(yōu)質(zhì)出版商內(nèi)容的重視程度遠(yuǎn)高于其他來源。
研究進(jìn)一步揭示,全球北方(以北美、歐洲為主,涵蓋其他高收入地區(qū))的新聞機(jī)構(gòu)較全球南方(包含非洲、拉美,亞太地區(qū)以及發(fā)展中的亞洲國家)有較大偏向性地提出屏蔽人工智能爬蟲要求。以美國為例,高達(dá)79%的熱門在線新聞網(wǎng)站對OpenAI爬蟲設(shè)限,而在墨西哥與波蘭,這一比例僅為20%類似的情況出現(xiàn)在德國(有60%的新聞網(wǎng)站對谷歌爬蟲采取限制)與波蘭和西班牙僅占7%的對比之中。
令人矚目的是,幾乎所有封鎖谷歌爬蟲的網(wǎng)站同時也禁止了OpenAI(達(dá)到了夸張的97%)。盡管該研究并未給出具體的解釋,唯一可信的推測可能在于OpenAI爬蟲相較谷歌更早推出的緣故。