首個 AI 程序員 Devin,程序現身明星創業公司內部群。臥底網友
為解決一個技術問題,工作Devin 借用了其創造者的群修賬號,與客戶公司的技術 CTO 交流,并根據回復調整了代碼方案。頂級
對話之專業,碼農圍觀者看了直呼這個世界太瘋狂。水平
事情發生在辦公軟件 Slack,程序截圖中的臥底網友 akshat 是 AI 基礎設施創業公司 Modal Labs的 CTO Akshat Bubna。
Modal Labs 也是工作 Devin 開發商 Cognition 的首批客戶之一。
此時 Devin 正披著他的群修創造者之一、IOI 金牌得主 Steven Hao的技術馬甲。
對話的頂級開始,AI 程序員 Devin 正在詢問有關 Modal Lab 平臺的碼農密鑰的生命周期問題,特別是密鑰更新后傳播到正在運行的應用程序所需的時間。
Devin 表示自己已經查閱了文檔,包括密鑰和環境變量指南、CLI 命令參考、API 參考以及容器生命周期鉤子和參數,但依舊沒有找到關于密鑰傳播時間的明確信息。
Devin 詢問了更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因為這對于他們的運營至關重要,了解這一點將有助于管理他們的部署流程。
人類 CTO 解釋說,當密鑰更新時,他們不會使已經運行的 Modal 容器失效,但是新啟動的容器將會讀取更新后的值。
Devin 對此表示感謝,并決定暫時采用手動方法來管理 Modal 中的密鑰,即在需要時調用 modal deploy 命令來觸發相關應用程序容器的重啟。
看完整個過程后,同樣是 AI 創業者的 Raunak Chowdhuri 評價到:
發現問題、創建工單、調整代碼,最好的人類開發者就是這么工作的。
Devin 更多實測結果
拿到 Devin 早期測試資格的人和公司并不多,不過還是陸陸續續有人曬出實測結果。
熱衷 AI 的沃頓商學院教授 Ethan Molick試過后,認為其新穎的實時交互方式是最值得關注的。
您可以隨時與它“交談”,就像與人交談一樣,它會在后臺不斷地執行和調試您的想法。
在測試中,Ethan Mollick 要求 Devin 開發一個解釋“創業公司融資中的股權稀釋”的網站。
不過他透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。
另一位曬出測試過程的創業者 Mckay Wrigley更激動一些。
在他曬出的 27 分鐘測試中,只發了一個 GitHub 連接,讓 Devin 部署來自開源項目的代碼。
Devin 自主把任務拆解成一系列子步驟,并一步步開始執行。
執行過程中,Devin 在安裝 Supabase 數據庫時遇到了障礙,自己打開了對應的 Github 倉庫開始查閱文檔……
從后續終端反饋中可以看出,Devin 查到了運行 Supabase 所需的各種端口和密匙都應該填什么。
(裝過的都知道,雀食挺麻煩……)
與此同時,Devin 還在根據實際情況不斷修改自己的后續計劃。
一段時間過后,一個本地的聊天機器人程序就跑起來了。
測試一段時間后 Mckay Wrigley 認為,Devin 已經可以算 Agent 的 ChatGPT 時刻。
復現 Devin 計劃 ing
Devin 這邊大伙還在接連測試,另一邊開源“復現”方案也在進行中……
這不,GitHub 三萬 Star 項目 MetaGPT就上新了“開源版 Devin”。
名為數據解釋器(Data Interpreter):
同 Devin 一樣,Data Interpreter 也能實現自主編程,能迭代式觀察數據,預測分析病情進展、機器運行狀態;還能構建機器學習模型、進行數學推理、自動回復電子郵件、仿寫網站……
比如從英偉達股價數據中分析收盤價格趨勢:
分析數據預測葡萄酒質量:
除此以外,阿里 Qwen 成員 Binyan Hui 等人開啟了 OpenDevin項目,剛剛起步已獲得 1.2k Star。
Binyan Hui 發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間內就完成了前端原型。
同時項目團隊也在招新成員:
另外,還一個名為 Maisa AI 的團隊推出了 Maisa KPU(Knowledge Processing Unit),被網友認為與 Devin 有一些競爭。
目前 Maisa KPU 處于測試階段,它可以解決復雜問題和推理,團隊發布的基準測試結果如下:
根據 demo 展示,KPU 可以成為“智能客服”,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達的問題:
Devin 基準測試技術報告發布
最近,Devin 創始團隊 Cognition 還發布關于 SWE-bench 測試的技術報告。除了之前已公布的測試結果之外,團隊還透露了一些新消息。
比如,Cognition 的目標之一是讓 Devin 這個專門從事軟件開發的 AI 智能體能夠成功地為大型、復雜的代碼庫貢獻代碼。
選擇在 SWE-bench 上端到端運行智能體,也是考慮了它更接近現實世界的軟件開發。
此外,研發團隊還透露,為了防止 Devin 在測試中作弊,比如查找外部的 pull requests 信息,測試已做相關設置,確保 Devin 無法訪問相關信息,并且在此過程中也已人工手動檢查了 Devin 運行情況。
最后團隊強調 Devin 仍處于起步階段,還有很大改進空間:
更多細節感興趣的家人們可查看報告詳情。
Devin 發布不到一周,網友們的討論已十分熱烈。比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。以后 Stack Overflow 上都是各種 Devin 在提問,人,就只能被擠出去(Stack Overflow 危!!!):
有網友回應(手動狗頭):
它們可以互相回答問題。
還有網友發現 Devin 背后團隊 Cognition 正在招全職軟件工程師,于是緩緩打出一個問號:
Devin 不是應該填補這些職位空缺來為他們省錢嗎?
最后,若 Devin 公開你會想用它干點啥?
參考鏈接:
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375
[3]https://twitter.com/emollick/status/1768742585122558063
[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨 西風