DeepSeek 又出手了,這次又是重磅炸彈。
昨晚,DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。
在美國數(shù)學(xué)競賽(AMC)中難度等級最高的 AIME 以及全球頂級編程競賽(codeforces)等權(quán)威評測中,DeepSeek-R1-Lite-Preview 模型已經(jīng)大幅超越了 GPT-4o 等頂尖模型,有三項成績還領(lǐng)先于 OpenAI o1-preview。
背后的秘訣,就是「深度思考」。
更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈、更長的推理時間,能讓大模型的性能更強(qiáng),這在領(lǐng)域內(nèi)已經(jīng)是廣泛共識。這種模式其實(shí)非常像人類大腦的深度思考。
與 OpenAI o1 有點(diǎn)不一樣的是,DeepSeek-R1-Lite-Preview 會在回復(fù)中展示「思路鏈」推理,也就是響應(yīng)查詢和輸入的不同鏈或「思路」,并解釋它在做什么以及為什么這樣做。
就像是解題時,有人喜歡將每一步驟都詳盡地寫在卷子上,而 DeepSeek-R1-Lite-Preview 更進(jìn)一步:把內(nèi)心 OS 也都寫出來了。
DeepSeek 官方表示,DeepSeek R1 系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練,推理過程包含大量反思和驗(yàn)證,思維鏈長度可達(dá)數(shù)萬字。已經(jīng)發(fā)布的 DeepSeek-R1-Lite-Preview 使用的是一個較小的基座模型,尚未完全釋放長思維鏈的潛力。
對于用戶的 Prompt,DeepSeek-R1-Lite-Preview 會有一個很長的推理過程。如上圖中的紅色實(shí)線所示,模型所能達(dá)到的準(zhǔn)確率與所給定的推理長度呈正相關(guān)。且相比于傳統(tǒng)的多次采樣 + 投票(Majority Voting),模型思維鏈長度增加展現(xiàn)出了更高的效率。
最驚艷的是,發(fā)布即上線:所有用戶均可通過官網(wǎng)開啟與 DeepSeek-R1-Lite-Preview 的對話,但注意要先在輸入框中打開「深度思考」模式,每天限制 50 次使用。
體驗(yàn)地址:http://chat.deepseek.com/
不得不說,對 o1 直接發(fā)起沖擊的 DeepSeek,著實(shí)讓國內(nèi) AI 社區(qū)振奮了一把:
圖源:https://www.zhihu.com/question/4689435060/answer/36575793425
由于 DeepSeek-R1-Lite-Preview 目前僅支持網(wǎng)頁使用,沒有發(fā)布完整代碼供獨(dú)立第三方分析或基準(zhǔn)測試,也沒有通過 API 提供 DeepSeek-R1-Lite-Preview 以進(jìn)行同類獨(dú)立測試,也沒有解釋 DeepSeek-R1-Lite-Preview 是如何訓(xùn)練或構(gòu)建的博客文章或技術(shù)論文,大家心中其實(shí)還有許多的「問號」。
但 DeepSeek 已經(jīng)表示,正式版 DeepSeek-R1 模型會完全開源,還會公開技術(shù)報告,部署 API 服務(wù)。
圖源:https://www.zhihu.com/question/4689435060/answer/36604051127
回想起上一次,DeepSeek-V2 的開源和 API 降價,直接引發(fā)了國產(chǎn)大模型廠商的降價浪潮。同樣的力度再來一波,不知道大家如何頂住。
耐心等待的時間里,我們先來實(shí)測一下。
一手實(shí)測體驗(yàn)
與 OpenAI o1 相同的是,根據(jù)問題的復(fù)雜程度,它也需要「思考」數(shù)十秒后再回答。
雖然有些過程中的思路在人類看來可能毫無意義,甚至是錯誤的,但據(jù)初步測評,DeepSeek-R1-Lite-Preview 回復(fù)的最終整體準(zhǔn)確率還是比較高的。
比如它可以回答 GPT-4o 和 Claude 系列都翻車過的問題 —— 經(jīng)典陷阱題「Strawberry 這個詞中有多少個字母 R?」和「9.11 和 9.9 哪個更大?」。
有用戶在 DeepSeek Chat 上使用這些 Prompt 進(jìn)行測試,回復(fù)結(jié)果和思考用時情況如下:
Strawberry 這個詞中有多少個字母 R?用時 29 秒。
9.11 和 9.9 哪個更大?用時 9 秒。
不過在數(shù)草莓的問題上,R1-Lite-Preview 有時也會困惑,數(shù)出「只有 2 個 r」的答案:
機(jī)器之心也實(shí)測了一把,似乎對于中文,R1-Lite-Preview 的準(zhǔn)確率更高:
對于需要動腦的問題,R1-Lite-Preview 的表現(xiàn)也可圈可點(diǎn),比如它可以破解行測題的邏輯陷阱:
由 LeCun 提出的物理題:圓周上均勻分布了 7 根軸,每根軸上都有一個齒輪。每個齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號,依次沿圓周排列。問題是:如果齒輪 3 順時針旋轉(zhuǎn),問齒輪 7 會沿什么方向旋轉(zhuǎn)?
得出解來十分絲滑:
接下來,給 R1-Lite-Preview 上點(diǎn)強(qiáng)度,看看它能否笑對大學(xué)物理的噩夢:《電磁學(xué)千題解》。
在 34 秒內(nèi),它根據(jù)題意列出了對應(yīng)的公式,得到了正確答案:
至于 R1-Lite-Preview 被全球頂級編程競賽(codeforces)等權(quán)威評測檢驗(yàn)過的代碼能力,讓它手撕大廠秋招級別的 Leetcode 經(jīng)典題「島嶼問題」試一下:
運(yùn)行起來也沒大問題。
然而,相比推理、物理和編程,R1-Lite-Preview 的數(shù)學(xué)能力可能沒那么讓人放心。
比如科技博主 @Transformer - 周問了一道中學(xué)水平的數(shù)列題,只有 o1 和 o1mini 做對了,R1-Lite-Preview 沒想出關(guān)鍵的破題思路,而是「蒙」出了答案。
而對于最能考驗(yàn)人類大腦的深度思考能力的 IMO 國際數(shù)學(xué)奧林匹克競賽試題,R1-Lite-Preview 的表現(xiàn)是這樣的:
這道代數(shù)題相當(dāng)難,全球僅有 5 個人全對。在長達(dá) 162 秒的思考過程中,R1-Lite-Preview 洋洋灑灑地把解題思路寫成了一篇小論文,可能它的老師也教過 —— 把解題過程寫上能得一半分。
令人遺憾的是,最終答案 c=1 是錯的,正確答案如下:
而另一位「解題過程沒寫全」的選手 OpenAI o1 卻給出了正確答案:
這說明,DeepSeek-R1-Lite-Preview 仍有進(jìn)步空間,也更讓我們期待完整版模型的發(fā)布了。
各位讀者已經(jīng)試用了嗎?歡迎在評論區(qū)分享有趣的實(shí)測案例。
參考鏈接:
https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw
https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/
轉(zhuǎn)載請注明來自濟(jì)南富森木工刀具制造有限公司 ,本文標(biāo)題:《推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開源》
百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!
還沒有評論,來說兩句吧...