在 DeepSeek V3 一個月前驚艷亮相后,它背后的 " 能量來源 "DeepSeek R1 系列正式發(fā)布。
1 月 20 日,DeepSeek 在 Huggingface 上上傳了 R1 系列的技術(shù)報告和各種信息。
按照 DeepSeek 的介紹,它這次發(fā)布了三組模型:1)DeepSeek-R1-Zero,它直接將 RL 應(yīng)用于基座模型,沒有任何 SFT 數(shù)據(jù),2)DeepSeek-R1,它從經(jīng)過數(shù)千個長思想鏈(CoT)示例微調(diào)的檢查點(diǎn)開始應(yīng)用 RL,和 3)從 DeepSeek-R1 中蒸餾推理能力到小型密集模型。
DeepSeek-R1 在 AIME2024 上獲得了 79.8% 的成績,略高于 OpenAI-o1-1217。在 MATH-500 上,它獲得了 97.3% 的驚人成績,表現(xiàn)與 OpenAI-o1-1217 相當(dāng),并明顯優(yōu)于其他模型。在編碼相關(guān)的任務(wù)中,DeepSeek-R1 在代碼競賽任務(wù)中表現(xiàn)出專家水平,在 Codeforces 上獲得了 2029 Elo 評級,在競賽中表現(xiàn)優(yōu)于 96.3% 的人類參與者。對于工程相關(guān)的任務(wù),DeepSeek-R1 的表現(xiàn)略優(yōu)于 OpenAI-o1-1217。
此次技術(shù)報告里披露的技術(shù)路線,最讓人驚嘆的是 R1 Zero 的訓(xùn)練方法。
DeepSeek R1 放棄了過往對預(yù)訓(xùn)練大模型來說必不可少甚至最關(guān)鍵的一個訓(xùn)練技巧—— SFT。SFT(微調(diào))簡單說,就是先用大量人工標(biāo)準(zhǔn)的數(shù)據(jù)訓(xùn)練然后再通過強(qiáng)化學(xué)習(xí)讓機(jī)器自己進(jìn)一步優(yōu)化,而 RL(強(qiáng)化學(xué)習(xí))簡單說就是讓機(jī)器自己按照某些思維鏈生成數(shù)據(jù)自己調(diào)整自己學(xué)習(xí)。SFT 的使用是 ChatGPT 當(dāng)初成功的關(guān)鍵,而今天 R1 Zero 完全用強(qiáng)化學(xué)習(xí)取代了 SFT。
而且,效果看起來不錯。報告顯示,隨著強(qiáng)化學(xué)習(xí)訓(xùn)練過程的進(jìn)行,DeepSeek-R1-Zero 的性能穩(wěn)步提升。比如," 在 AIME 2024 上,DeepSeek-R1-Zero 的平均 pass@1 得分從最初的 15.6% 躍升至令人印象深刻 71.0%,達(dá)到與 OpenAl-o1-0912 相當(dāng)?shù)男阅芩?。這一重大改進(jìn)突顯了我們的 RL 算法在優(yōu)化模型性能方面的有效性。"
但 R1 zero 本身也有問題,因?yàn)橥耆珱]有人類監(jiān)督數(shù)據(jù)的介入,它會在一些時候顯得混亂。為此 DeepSeek 用冷啟動和多階段 RL 的方式,改進(jìn)了一個訓(xùn)練流程,在 R1 zero 基礎(chǔ)上訓(xùn)練出更 " 有人味兒 " 的 R1。這其中的技巧包括:
冷啟動數(shù)據(jù)引入—— 針對 DeepSeek-R1-Zero 的可讀性和語言混雜問題,DeepSeek-R1 通過引入數(shù)千條高質(zhì)量的冷啟動數(shù)據(jù)進(jìn)行初始微調(diào),顯著提升了模型的可讀性和多語言處理能力;
兩階段強(qiáng)化學(xué)習(xí)——模型通過兩輪強(qiáng)化學(xué)習(xí)不斷優(yōu)化推理模式,同時對齊人類偏好,提升了多任務(wù)的通用性;
增強(qiáng)型監(jiān)督微調(diào)——在強(qiáng)化學(xué)習(xí)接近收斂時,結(jié)合拒絕采樣(Rejection Sampling)和多領(lǐng)域的數(shù)據(jù)集,模型進(jìn)一步強(qiáng)化了寫作、問答和角色扮演等非推理能力。
可以看出來,R1 系列與 GPT,甚至 OpenAI 的 o 系列看起來的做法相比,在對待 " 有監(jiān)督數(shù)據(jù) " 上都更加激進(jìn)。不過這也合理,當(dāng)模型的重點(diǎn)從 " 與人類的交互 " 變成 " 數(shù)理邏輯 ",前者是有大量的現(xiàn)成的數(shù)據(jù)的,但后者很多都是停留在腦子里的抽象思考,沒有現(xiàn)成數(shù)據(jù)可以用,而尋找那些奧數(shù)大師們一個個羅列和標(biāo)注他們腦子里的解題思路,顯然又貴又耗時。讓機(jī)器自己產(chǎn)生某種同樣存在它自己腦子里的數(shù)據(jù)鏈條,是合理的做法。
論文里另一個很有意思的地方,是 R1 zero 訓(xùn)練過程里,出現(xiàn)了涌現(xiàn)時刻,DeepSeek 把它們稱為 "aha moment"。
" 它突顯了強(qiáng)化學(xué)習(xí)的力量和美麗:與其明確地教模型如何解決問題,我們只需為其提供正確的激勵,它就會自主地開發(fā)先進(jìn)的問題解決策略。這一 " 頓悟時刻 " 有力地提醒了強(qiáng)化學(xué)習(xí)在解鎖人工智能新水平方面的潛力,為未來更自主、更適應(yīng)的模型鋪平了道路。"
蒸餾,蒸餾,歡迎大家一起來蒸餾
在 DeepSeek 的官方推文里,所有介紹的重點(diǎn)并不在 R1 模型技巧或 R1 模型榜單成績,而是在蒸餾。
" 今天,我們正式發(fā)布 DeepSeek-R1,并同步開源模型權(quán)重。DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。DeepSeek-R1 上線 API,對用戶開放思維鏈輸出,通過設(shè)置 `model='deepseek-reasoner'` 即可調(diào)用。DeepSeek 官網(wǎng)與 App 即日起同步更新上線。"
這是它官方發(fā)布的頭幾句話。
DeepSeek 在 R1 基礎(chǔ)上,用 Qwen 和 Llama 蒸餾了幾個不同大小的模型,適配目前市面上對模型尺寸的最主流的幾種需求。它沒有自己搞,而是用了兩個目前生態(tài)最強(qiáng)大,能力也最強(qiáng)大的開源模型架構(gòu)。Qwen 和 Llama 的架構(gòu)相對簡潔,并提供了高效的權(quán)重參數(shù)管理機(jī)制,適合在大模型(如 DeepSeek-R1)上執(zhí)行高效的推理能力蒸餾。蒸餾過程不需要對模型架構(gòu)進(jìn)行復(fù)雜修改,減少了開發(fā)成本。而且,直接在 Qwen 和 Llama 上進(jìn)行蒸餾訓(xùn)練比從頭訓(xùn)練一個同規(guī)模的模型要節(jié)省大量的計(jì)算資源,同時可以復(fù)用已有的高質(zhì)量參數(shù)初始化。
這是 DeepSeek 打的一手好算盤。
而且,效果同樣不錯。
此外,在技術(shù)方向上,這也給業(yè)界帶來啟發(fā):
對小模型來說,蒸餾優(yōu)于直接強(qiáng)化學(xué)習(xí):從 DeepSeek-R1 蒸餾得到的小模型在多個推理基準(zhǔn)(如 AIME 2024 和 MATH-500)上的表現(xiàn)優(yōu)于直接對小模型進(jìn)行強(qiáng)化學(xué)習(xí)。大模型學(xué)到的推理模式在蒸餾中得到了有效傳遞。
DeepSeek 比 OpenAI 更有活力
如果簡單來概括 R1 系列的發(fā)布,DeepSeek 用巨大的算力和各類資源,訓(xùn)練了一個強(qiáng)大的底層模型——這個叫做 R1 zero 的模型,在訓(xùn)練過程里直接拋棄了 GPT 系列為代表的 SFT 等預(yù)訓(xùn)練技巧,直接激進(jìn)地幾乎全部依賴強(qiáng)化學(xué)習(xí),造出了一個僅靠自己反思就擁有泛化能力的模型。
然后,因?yàn)槿?" 自我反思 " 學(xué)出來的能力,R1 zero 有時候會顯得學(xué)的有點(diǎn)雜而混亂了,為了能夠讓人更好使用,DeepSeek 用它自己的一系列技巧來讓它和真實(shí)的場景做了對齊,改造出一個 R1。
然后在此基礎(chǔ)上,不是自己蒸餾小模型而是用幾個最流行的開源框架蒸餾出來了幾個最合適尺寸的模型。所有這些都開源給外界參考和使用。
整個過程里,DeepSeek 顯示出很強(qiáng)的自己自成一派的技術(shù)路線和風(fēng)格。而這種路線正在和 OpenAI 正面交鋒。
OpenAI 的 o 系列此前陸續(xù)傳出的訓(xùn)練方法上,對于 " 對齊 " 基本延續(xù)著 GPT 系列形成的風(fēng)格,此前一名 OpenAI 負(fù)責(zé)訓(xùn)練安全和對齊部分的研究員曾對我們透露,他們內(nèi)部,所謂安全和與人類對齊,其實(shí)和提高模型能力是同一件事。但后來隨著 o3 的預(yù)告,同時發(fā)生的就是這些人類安全對齊機(jī)制的研究員的集體離職。這也讓這家公司的創(chuàng)新變得遮遮掩掩,外部看來就是慢下來,且活力減少了。
這樣的對比,也讓 DeepSeek 在這個階段的異軍突起顯得更讓人期待。它比 OpenAI 更有活力。
從 DeepSeek R 系列來看,它的對齊放在了 R1 這個模型的訓(xùn)練階段里,而 R1 zero 更像是只追求用最極致的強(qiáng)化學(xué)習(xí)方法自己練出強(qiáng)大的邏輯能力。人類反饋說喜不喜歡它,這些信息并沒有太被混在最初 R1 zero 里面一起訓(xùn)練。
這繼續(xù)在把 " 基礎(chǔ)模型 " 的能力和實(shí)際使用的模型分開,最初 GPT3 和 InstructGPT 其實(shí)就是這樣的思路,只不過當(dāng)時是基礎(chǔ)能力和人類偏好分開兩階段完成,現(xiàn)在是更抽象的基礎(chǔ)邏輯能力和更強(qiáng)調(diào)實(shí)用性能和性價比的偏好。這也是為什么 V3 之前被發(fā)現(xiàn)在文科類的能力上不強(qiáng)的原因。
所以,與 " 追上 o1" 相比,DeepSeek R1 zero 證明出來的能力,和用它蒸餾出來的 V3 的驚艷,以及這次它又用 Llama 和 Qwen 蒸餾出來的幾個小參數(shù)模型表現(xiàn)出來的能力,才是這一系列動作的關(guān)鍵。
在與人類交互這件事上,ChatGPT 因?yàn)橛?GPT4 提供的基礎(chǔ)能力后,實(shí)現(xiàn)了突破,但 OpenAI 選擇立刻閉源,這樣就只有它自己能突破。在泛化出強(qiáng)大的數(shù)理推理能力這件事上,DeepSeek V3 因?yàn)橛?DeepSeek R1 的強(qiáng)大涌現(xiàn)才實(shí)現(xiàn)突破,而 DeepSeek 則把它開源,選擇讓大家都能一起突破。
DeepSeek 對 OpenAI 的威脅是真實(shí)的,接下來的 " 比拼 " 會越來越有意思。