DeepSeek 新發(fā)布遠(yuǎn)超預(yù)期,Reddit/ 狂暴刷屏中。
開源DeepSeek-R1 推理大模型,與 o1 性能相近。
開源DeepSeek-R1-Zero,預(yù)訓(xùn)練模型直接 RL,不走 SFT,堪稱語言模型的 AlphaZero。
開源用R1 數(shù)據(jù)蒸餾的 Qwen、Llama 系列小模型,在某些任務(wù)上直接超過 GPT-4o。
R1-Zero 模型在思考過程中涌現(xiàn)了" 頓悟時刻 "(aha moment),并自己學(xué)會為問題分配更多思考時間。
如果將 DeepSeek-R1 與Search-o1和 Tree-of-Agents(大約 50 個智能體)結(jié)合起來,可以很小的成本獲得與 o3 類似的性能,最終可能便宜數(shù)百倍。
R1 是開源的,R1 數(shù)據(jù)想跑多少有多少,API 可以用于蒸餾和微調(diào),商用是免費(fèi)的。
DeepSeek 新發(fā)布
OpenAI 的 o1 系列模型率先引入了推理時擴(kuò)展(inference-time scaling)的概念,通過增加思維鏈(Chain-of-Thought)推理過程的長度,在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。
先前的研究探索了基于過程的獎勵模型、強(qiáng)化學(xué)習(xí)、蒙特卡洛樹搜索和束搜索等方法,但尚未有方法在通用推理性能上達(dá)到 o1 系列模型的水平。
DeepSeek-R1-Zero
DeepSeek 團(tuán)隊(duì)邁出了利用純強(qiáng)化學(xué)習(xí)提升語言模型推理能力的第一步。
他們的目標(biāo)是探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化,從而獲得推理能力。
具體而言,他們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型,并采用 GRPO(Group Relative Policy Optimization)作為強(qiáng)化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。
在訓(xùn)練過程中,DeepSeek-R1-Zero 自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。
例如,它在 AIME 2024 上的 pass@1 得分從 15.6% 提高到 71.0%,并且通過多數(shù)投票,得分進(jìn)一步提高到 86.7%,與 OpenAI-o1-0912 的表現(xiàn)相當(dāng)。
然而,DeepSeek-R1-Zero 也面臨著可讀性差、語言混雜等挑戰(zhàn)。
為了解決這些問題并進(jìn)一步提高推理性能,團(tuán)隊(duì)提出了 DeepSeek-R1,它結(jié)合了少量冷啟動數(shù)據(jù)和多階段訓(xùn)練流程。
具體而言,他們首先收集數(shù)千條冷啟動數(shù)據(jù)來微調(diào) DeepSeek-V3-Base 模型。隨后,他們進(jìn)行了類似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)。
當(dāng)接近強(qiáng)化學(xué)習(xí)過程的收斂時,他們通過在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣,結(jié)合來自 DeepSeek-V3 在寫作、事實(shí)型問答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù),創(chuàng)建新的 SFT 數(shù)據(jù),然后重新訓(xùn)練 DeepSeek-V3-Base 模型。
使用新數(shù)據(jù)進(jìn)行微調(diào)后,該檢查點(diǎn)還經(jīng)歷了一個額外的強(qiáng)化學(xué)習(xí)過程,考慮到所有場景下的提示。
經(jīng)過這些步驟,他們獲得了一個稱為 DeepSeek-R1 的檢查點(diǎn),其性能與 OpenAI-o1-1217 不相上下。
DeepSeek 團(tuán)隊(duì)進(jìn)一步探索了從 DeepSeek-R1 蒸餾到更小的密集模型。使用 Qwen2.5-32B 作為基礎(chǔ)模型,直接從 DeepSeek-R1 蒸餾的效果優(yōu)于在其上應(yīng)用強(qiáng)化學(xué)習(xí)。
這表明,更大的基礎(chǔ)模型發(fā)現(xiàn)的推理模式對于提高推理能力至關(guān)重要。
他們開源了蒸餾的 Qwen 和 Llama 系列模型。值得注意的是,他們的蒸餾 14B 模型在推理基準(zhǔn)測試中大幅超過了當(dāng)前最先進(jìn)的開源 QwQ-32B-Preview,而蒸餾的 32B 和 70B 模型在密集模型中樹立了新的推理任務(wù)基準(zhǔn)。
在過程獎勵模型、蒙特卡洛樹搜索算法上,DeepSeek 都沒能獲得進(jìn)展。
不過他們也強(qiáng)調(diào),只是他們失敗了,并不意味著這些方法無法開發(fā)出有效的推理模型。
還有英語母語者挑起了論文中的遣詞造句,認(rèn)為很可能是大模型幫團(tuán)隊(duì)撰寫的論文。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
參考鏈接:
[ 1 ] https://x.com/deepseek_ai/status/1881318130334814301
[ 2 ] https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/