国产一级黄片视频_精品无码免费成a人片_久久婷婷国产综合尤物精品_日韩精品亚洲精品无码专区

量子位 01-21

DeepSeek 是新源神！推理模型 o1 性能 1/50 價格，微調(diào) / 數(shù)據(jù) / 商用全免費(fèi)，蒸餾 1.5B 小模型可比 GPT-4o

DeepSeek 新發(fā)布遠(yuǎn)超預(yù)期，Reddit/ 狂暴刷屏中。

這次大事共有 3 件：

開源DeepSeek-R1 推理大模型，與 o1 性能相近。

開源DeepSeek-R1-Zero，預(yù)訓(xùn)練模型直接 RL，不走 SFT，堪稱語言模型的 AlphaZero。

開源用R1 數(shù)據(jù)蒸餾的 Qwen、Llama 系列小模型，在某些任務(wù)上直接超過 GPT-4o。

同時開放官方 API，輸入 token（命中緩存）價格只有 OpenAI o1 的 1/50，未命中緩存以及輸出 token 價格約 1/27。

論文中被反復(fù)熱議的小細(xì)節(jié)就更多了：

R1-Zero 模型在思考過程中涌現(xiàn)了" 頓悟時刻 "（aha moment），并自己學(xué)會為問題分配更多思考時間。

網(wǎng)友們開始推演接下來的劇情，如果頓悟的力量能被穩(wěn)定利用……那就不知道會通向何處了。

再有，目前社區(qū)猜測 OpenAI 的 o1-pro/o3 可能使用了 tree-of-agents 方法，許多個 o1 的分身各自回答問題，再通過某種方式選出最優(yōu)答案。

如果將 DeepSeek-R1 與Search-o1和 Tree-of-Agents（大約 50 個智能體）結(jié)合起來，可以很小的成本獲得與 o3 類似的性能，最終可能便宜數(shù)百倍。

這次 DeepSeek 總共開源 6 個在 R1 數(shù)據(jù)上蒸餾的小模型，其中蒸餾版 Qwen-1.5B 都能在部分任務(wù)上超過 GPT-4o。

DeepSeek 還特別更新了開源許可證，現(xiàn)在是MIT Lisence。

R1 是開源的，R1 數(shù)據(jù)想跑多少有多少，API 可以用于蒸餾和微調(diào)，商用是免費(fèi)的。

新的源神出現(xiàn)了！

DeepSeek 新發(fā)布

OpenAI 的 o1 系列模型率先引入了推理時擴(kuò)展（inference-time scaling）的概念，通過增加思維鏈（Chain-of-Thought）推理過程的長度，在數(shù)學(xué)、編程、科學(xué)推理等任務(wù)上取得了顯著的性能提升。

先前的研究探索了基于過程的獎勵模型、強(qiáng)化學(xué)習(xí)、蒙特卡洛樹搜索和束搜索等方法，但尚未有方法在通用推理性能上達(dá)到 o1 系列模型的水平。

DeepSeek-R1-Zero

DeepSeek 團(tuán)隊(duì)邁出了利用純強(qiáng)化學(xué)習(xí)提升語言模型推理能力的第一步。

他們的目標(biāo)是探索大模型在沒有任何監(jiān)督數(shù)據(jù)的情況下，通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化，從而獲得推理能力。

具體而言，他們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型，并采用 GRPO（Group Relative Policy Optimization）作為強(qiáng)化學(xué)習(xí)框架來提高模型在推理任務(wù)上的表現(xiàn)。

在訓(xùn)練過程中，DeepSeek-R1-Zero 自然而然地涌現(xiàn)出許多強(qiáng)大而有趣的推理行為。

經(jīng)過數(shù)千步的強(qiáng)化學(xué)習(xí)，DeepSeek-R1-Zero 在推理基準(zhǔn)測試中表現(xiàn)出色。

例如，它在 AIME 2024 上的 pass@1 得分從 15.6% 提高到 71.0%，并且通過多數(shù)投票，得分進(jìn)一步提高到 86.7%，與 OpenAI-o1-0912 的表現(xiàn)相當(dāng)。

DeepSeek-R1

然而，DeepSeek-R1-Zero 也面臨著可讀性差、語言混雜等挑戰(zhàn)。

為了解決這些問題并進(jìn)一步提高推理性能，團(tuán)隊(duì)提出了 DeepSeek-R1，它結(jié)合了少量冷啟動數(shù)據(jù)和多階段訓(xùn)練流程。

具體而言，他們首先收集數(shù)千條冷啟動數(shù)據(jù)來微調(diào) DeepSeek-V3-Base 模型。隨后，他們進(jìn)行了類似 DeepSeek-R1-Zero 的面向推理的強(qiáng)化學(xué)習(xí)。

當(dāng)接近強(qiáng)化學(xué)習(xí)過程的收斂時，他們通過在強(qiáng)化學(xué)習(xí)檢查點(diǎn)上進(jìn)行拒絕采樣，結(jié)合來自 DeepSeek-V3 在寫作、事實(shí)型問答、自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù)，創(chuàng)建新的 SFT 數(shù)據(jù)，然后重新訓(xùn)練 DeepSeek-V3-Base 模型。

使用新數(shù)據(jù)進(jìn)行微調(diào)后，該檢查點(diǎn)還經(jīng)歷了一個額外的強(qiáng)化學(xué)習(xí)過程，考慮到所有場景下的提示。

經(jīng)過這些步驟，他們獲得了一個稱為 DeepSeek-R1 的檢查點(diǎn)，其性能與 OpenAI-o1-1217 不相上下。

R1 數(shù)據(jù)蒸餾模型

DeepSeek 團(tuán)隊(duì)進(jìn)一步探索了從 DeepSeek-R1 蒸餾到更小的密集模型。使用 Qwen2.5-32B 作為基礎(chǔ)模型，直接從 DeepSeek-R1 蒸餾的效果優(yōu)于在其上應(yīng)用強(qiáng)化學(xué)習(xí)。

這表明，更大的基礎(chǔ)模型發(fā)現(xiàn)的推理模式對于提高推理能力至關(guān)重要。

他們開源了蒸餾的 Qwen 和 Llama 系列模型。值得注意的是，他們的蒸餾 14B 模型在推理基準(zhǔn)測試中大幅超過了當(dāng)前最先進(jìn)的開源 QwQ-32B-Preview，而蒸餾的 32B 和 70B 模型在密集模型中樹立了新的推理任務(wù)基準(zhǔn)。

最后，團(tuán)隊(duì)還把在實(shí)驗(yàn)過程中很多失敗的嘗試分享出來，防止后人踩坑。

在過程獎勵模型、蒙特卡洛樹搜索算法上，DeepSeek 都沒能獲得進(jìn)展。

不過他們也強(qiáng)調(diào)，只是他們失敗了，并不意味著這些方法無法開發(fā)出有效的推理模型。

未來他們計(jì)劃在以下方向繼續(xù)投入研究：提升通用能力、解決語言混雜問題、優(yōu)化提示詞敏感問題，以及改進(jìn)軟件工程任務(wù)的性能。

One More Thing

還有英語母語者挑起了論文中的遣詞造句，認(rèn)為很可能是大模型幫團(tuán)隊(duì)撰寫的論文。

同時很多人注意到，在 DeepSeek 的許多論文里，"DeepSeek-AI" 都出現(xiàn)在作者列表的第一位。

論文地址：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

參考鏈接：

[ 1 ] https://x.com/deepseek_ai/status/1881318130334814301

[ 2 ] https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

mit

国产一级黄片视频_精品无码免费成a人片_久久婷婷国产综合尤物精品_日韩精品亚洲精品无码专区

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

DeepSeek 是新源神！推理模型 o1 性能 1/50 價格，微調(diào) / 數(shù)據(jù) / 商用全免費(fèi)，蒸餾 1.5B 小模型可比 GPT-4o

宙世代

一起剪

相關(guān)閱讀

微軟Windows 11鎖屏界面將迎全新改版！可自定義小組件等

華為與DeepSeek聯(lián)手會發(fā)生什么：算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

2024年中國電視盒子線上銷量TOP10：小米第3

DeepSeek凸顯美國科技制裁失敗：第二個華為

AMD Zen1—Zen4架構(gòu)CPU存在安全漏洞！目前已修復(fù)

曝DeepSeek繞過CUDA！為適配中國國產(chǎn)GPU做準(zhǔn)備 跳出英偉達(dá)限制

雷軍官宣：小米SU7 Ultra和小米15 Ultra月底見

蘋果全新應(yīng)用Invites登場！可創(chuàng)建邀請函：但需付費(fèi)

中信證券：DeepSeek新一代模型有望加速AI應(yīng)用全面落地，重點(diǎn)關(guān)注三大主線

AMD：已將DeepSeek模型集成到GPU 針對Al推理進(jìn)行優(yōu)化

蘋果推出Invites應(yīng)用并調(diào)整Care+服務(wù)計(jì)劃以強(qiáng)化訂閱收入

通用Cruise裁員50%，將專注于個人自動駕駛汽車

中信建投：在深度推理的階段 模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲

真我GT7競速版即將到來，不拼拍照，追求專注極致性能

決戰(zhàn)RTX 5070系列！AMD RX 9070系列2月底紙面發(fā)布

最新評論

量子位

熱門推薦

DeepSeek 是新源神！推理模型 o1 性能 1/50 價格，微調(diào) / 數(shù)據(jù) / 商用全免費(fèi)，蒸餾 1.5B 小模型可比 GPT-4o

微軟Windows 11鎖屏界面將迎全新改版！可自定義小組件等

華為與DeepSeek聯(lián)手會發(fā)生什么：算力已達(dá)英偉達(dá)60%、CANN取代CDUA架構(gòu)

AMD Zen1—Zen4架構(gòu)CPU存在安全漏洞！目前已修復(fù)

曝DeepSeek繞過CUDA！為適配中國國產(chǎn)GPU做準(zhǔn)備跳出英偉達(dá)限制

中信證券：DeepSeek新一代模型有望加速AI應(yīng)用全面落地，重點(diǎn)關(guān)注三大主線

中信建投：在深度推理的階段模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲

真我GT7競速版即將到來，不拼拍照，追求專注極致性能