推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開源

推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開源

huamei 2025-03-15 新聞 27 次瀏覽 0個評論

推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開源

DeepSeek 又出手了,這次又是重磅炸彈。

昨晚,DeepSeek 上線了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個多月的大模型霸主地位。

在美國數(shù)學(xué)競賽(AMC)中難度等級最高的 AIME 以及全球頂級編程競賽(codeforces)等權(quán)威評測中,DeepSeek-R1-Lite-Preview 模型已經(jīng)大幅超越了 GPT-4o 等頂尖模型,有三項成績還領(lǐng)先于 OpenAI o1-preview。
背后的秘訣,就是「深度思考」。

更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈、更長的推理時間,能讓大模型的性能更強(qiáng),這在領(lǐng)域內(nèi)已經(jīng)是廣泛共識。這種模式其實(shí)非常像人類大腦的深度思考。

與 OpenAI o1 有點(diǎn)不一樣的是,DeepSeek-R1-Lite-Preview 會在回復(fù)中展示「思路鏈」推理,也就是響應(yīng)查詢和輸入的不同鏈或「思路」,并解釋它在做什么以及為什么這樣做。

就像是解題時,有人喜歡將每一步驟都詳盡地寫在卷子上,而 DeepSeek-R1-Lite-Preview 更進(jìn)一步:把內(nèi)心 OS 也都寫出來了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練,推理過程包含大量反思和驗(yàn)證,思維鏈長度可達(dá)數(shù)萬字。已經(jīng)發(fā)布的 DeepSeek-R1-Lite-Preview 使用的是一個較小的基座模型,尚未完全釋放長思維鏈的潛力。
對于用戶的 Prompt,DeepSeek-R1-Lite-Preview 會有一個很長的推理過程。如上圖中的紅色實(shí)線所示,模型所能達(dá)到的準(zhǔn)確率與所給定的推理長度呈正相關(guān)。且相比于傳統(tǒng)的多次采樣 + 投票(Majority Voting),模型思維鏈長度增加展現(xiàn)出了更高的效率。

最驚艷的是,發(fā)布即上線:所有用戶均可通過官網(wǎng)開啟與 DeepSeek-R1-Lite-Preview 的對話,但注意要先在輸入框中打開「深度思考」模式,每天限制 50 次使用
體驗(yàn)地址:http://chat.deepseek.com/

不得不說,對 o1 直接發(fā)起沖擊的 DeepSeek,著實(shí)讓國內(nèi) AI 社區(qū)振奮了一把:
                                 圖源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前僅支持網(wǎng)頁使用,沒有發(fā)布完整代碼供獨(dú)立第三方分析或基準(zhǔn)測試,也沒有通過 API 提供 DeepSeek-R1-Lite-Preview 以進(jìn)行同類獨(dú)立測試,也沒有解釋 DeepSeek-R1-Lite-Preview 是如何訓(xùn)練或構(gòu)建的博客文章或技術(shù)論文,大家心中其實(shí)還有許多的「問號」。

但 DeepSeek 已經(jīng)表示,正式版 DeepSeek-R1 模型會完全開源,還會公開技術(shù)報告,部署 API 服務(wù)。
                                圖源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的開源和 API 降價,直接引發(fā)了國產(chǎn)大模型廠商的降價浪潮。同樣的力度再來一波,不知道大家如何頂住。

耐心等待的時間里,我們先來實(shí)測一下。

一手實(shí)測體驗(yàn)

與 OpenAI o1 相同的是,根據(jù)問題的復(fù)雜程度,它也需要「思考」數(shù)十秒后再回答。

雖然有些過程中的思路在人類看來可能毫無意義,甚至是錯誤的,但據(jù)初步測評,DeepSeek-R1-Lite-Preview 回復(fù)的最終整體準(zhǔn)確率還是比較高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻車過的問題 —— 經(jīng)典陷阱題「Strawberry 這個詞中有多少個字母 R?」和「9.11 和 9.9 哪個更大?」。

有用戶在 DeepSeek Chat 上使用這些 Prompt 進(jìn)行測試,回復(fù)結(jié)果和思考用時情況如下:
                         Strawberry 這個詞中有多少個字母 R?用時 29 秒。
                              9.11 和 9.9 哪個更大?用時 9 秒。

不過在數(shù)草莓的問題上,R1-Lite-Preview 有時也會困惑,數(shù)出「只有 2 個 r」的答案:
機(jī)器之心也實(shí)測了一把,似乎對于中文,R1-Lite-Preview 的準(zhǔn)確率更高:
對于需要動腦的問題,R1-Lite-Preview 的表現(xiàn)也可圈可點(diǎn),比如它可以破解行測題的邏輯陷阱:
由 LeCun 提出的物理題:圓周上均勻分布了 7 根軸,每根軸上都有一個齒輪。每個齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號,依次沿圓周排列。問題是:如果齒輪 3 順時針旋轉(zhuǎn),問齒輪 7 會沿什么方向旋轉(zhuǎn)?
得出解來十分絲滑:
接下來,給 R1-Lite-Preview 上點(diǎn)強(qiáng)度,看看它能否笑對大學(xué)物理的噩夢:《電磁學(xué)千題解》。
在 34 秒內(nèi),它根據(jù)題意列出了對應(yīng)的公式,得到了正確答案:
至于 R1-Lite-Preview 被全球頂級編程競賽(codeforces)等權(quán)威評測檢驗(yàn)過的代碼能力,讓它手撕大廠秋招級別的 Leetcode 經(jīng)典題「島嶼問題」試一下:
運(yùn)行起來也沒大問題。

然而,相比推理、物理和編程,R1-Lite-Preview 的數(shù)學(xué)能力可能沒那么讓人放心。

比如科技博主 @Transformer - 周問了一道中學(xué)水平的數(shù)列題,只有 o1 和 o1mini 做對了,R1-Lite-Preview 沒想出關(guān)鍵的破題思路,而是「蒙」出了答案。
而對于最能考驗(yàn)人類大腦的深度思考能力的 IMO 國際數(shù)學(xué)奧林匹克競賽試題,R1-Lite-Preview 的表現(xiàn)是這樣的:
這道代數(shù)題相當(dāng)難,全球僅有 5 個人全對。在長達(dá) 162 秒的思考過程中,R1-Lite-Preview 洋洋灑灑地把解題思路寫成了一篇小論文,可能它的老師也教過 —— 把解題過程寫上能得一半分。
令人遺憾的是,最終答案 c=1 是錯的,正確答案如下:
而另一位「解題過程沒寫全」的選手 OpenAI o1 卻給出了正確答案:
這說明,DeepSeek-R1-Lite-Preview 仍有進(jìn)步空間,也更讓我們期待完整版模型的發(fā)布了。

各位讀者已經(jīng)試用了嗎?歡迎在評論區(qū)分享有趣的實(shí)測案例。

參考鏈接:
https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw
https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/

轉(zhuǎn)載請注明來自濟(jì)南富森木工刀具制造有限公司 ,本文標(biāo)題:《推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開源》

百度分享代碼,如果開啟HTTPS請參考李洋個人博客
每一天,每一秒,你所做的決定都會改變你的人生!

發(fā)表評論

快捷回復(fù):

驗(yàn)證碼

評論列表 (暫無評論,27人圍觀)參與討論

還沒有評論,來說兩句吧...

Top
 漳州國盾招聘信息最新  鹿邑小公寓出租信息最新  慈溪周巷最新拆遷信息  廣東高鐵中標(biāo)信息最新  銀川最新招聘焊工信息  棗陽最新文員招聘信息  濱合畢方最新信息  福州大武口招聘信息最新  遼寧鐵嶺最新招聘信息  河南醫(yī)院最新招聘信息  萬豐工廠招聘信息最新  發(fā)電機(jī)招聘信息最新  赤坑商鋪轉(zhuǎn)讓最新信息  清水園房子出租最新信息  榕水灣最新行情信息  仙桃到天津最新防疫信息  南陵鑫山廠場最新信息  曼瑞德教室最新信息  松江育嬰嫂招聘最新信息  資陽最新工廠招聘信息  目前美大選投票最新信息  臨海論壇最新求職信息  鄒城燒烤師招聘最新信息  益民蛋糕招聘信息最新  濟(jì)南最新書坊招聘信息  真至美招聘信息最新  阿里組裝工招聘信息最新  屯里鎮(zhèn)房屋出售最新信息  西海岸最新征地信息