據(jù)消息,揭示OpenAI近日發(fā)布了一項(xiàng)重要研究報(bào)告。秘密思報(bào)告指出,維鏈DeepSeek和Kimi兩家機(jī)構(gòu)通過獨(dú)立研究,學(xué)習(xí)顯成效成功利用思維鏈學(xué)習(xí)方法,揭示在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的秘密思綜合表現(xiàn)。
Kimi的維鏈研究員Flood Sung在隨后的發(fā)文中詳細(xì)闡述了這一發(fā)現(xiàn)。他提到,學(xué)習(xí)顯成效長思維鏈的揭示有效性在內(nèi)部實(shí)驗(yàn)中已經(jīng)得到了驗(yàn)證。在實(shí)際訓(xùn)練過程中,秘密思研究人員發(fā)現(xiàn)模型的維鏈表現(xiàn)會隨著訓(xùn)練的深入而不斷提升,并且token數(shù)也在不斷增加。學(xué)習(xí)顯成效這一現(xiàn)象表明,揭示在強(qiáng)化訓(xùn)練的秘密思過程中,模型能夠自我涌現(xiàn),維鏈進(jìn)一步提升其解題能力。
值得注意的是,就在1月20日,DeepSeek和Kimi在同一天發(fā)布了各自的推理模型R1和k1.5。這兩款模型的發(fā)布,無疑是對其研究成果的進(jìn)一步驗(yàn)證和展示。
此次DeepSeek與Kimi的研究不僅揭示了o1的秘密,更為人工智能領(lǐng)域的發(fā)展帶來了新的啟示。思維鏈學(xué)習(xí)方法的成功應(yīng)用,為提升AI模型的解題能力和編程能力提供了新的思路和方法。