對(duì)于 AI 圈來說,這個(gè)春節(jié)是 DeepSeek 冠名的春節(jié)。所有人都在討論它,DeepSeek 成了前所未有出圈的 AI 產(chǎn)品和公司。
這種討論伴隨著中美競爭、美股暴跌、神秘天才與暴富流言等大家喜聞樂見的話題,不可避免的走向了神化 / 妖魔化的方向。
但 DeepSeek 的研究員們?cè)趺礃恿??他們?cè)诿π┦裁矗?/b>
雖然這是個(gè)極其低調(diào)的公司,但同時(shí)作為一家鼓勵(lì)自己的科學(xué)家獲得學(xué)術(shù)成就,尤其是被其他人 follow 的成就感,以及以極致的開源為根基的 AI 研究公司,DeepSeek 的年輕科學(xué)家們其實(shí)在社區(qū)里也很活躍,他們是一個(gè)個(gè)具體而鮮活的研究員。
與那些夸張或臆想的文章獲得的大量關(guān)注不同,這些研究員們的一手討論與分享往往閱讀量很少。但對(duì)于真正想要了解這家公司的人來說,與其想象,不如看看這些研究員們真實(shí)的分享。
" 樂子人 " 和 "Infra 團(tuán)隊(duì)里隨便一個(gè)人 " 們
在 X 上做些搜索和研究,你會(huì)發(fā)現(xiàn),最明顯的感受是,DeepSeek 的研究員們沒有 OpenAI 或者其他明星研究員那種濃濃的 PR 味兒。這些賬號(hào)充滿人味。
比如,認(rèn)證為 DeepSeek 機(jī)器學(xué)習(xí)和多模態(tài)研究員的劉星超,給自己的簡介是 " 樂子人 "。
在爆火之前,很多時(shí)候他們跟我們這些普通關(guān)注者一樣,發(fā)出的信息石沉大海。
邵智宏實(shí)習(xí)期間成為 DeepSeek Math 的核心作者之一,后來參與了 R1 等模型開發(fā),他在推特上不停給 o1 和 Gemini 的成果點(diǎn)贊,給這些團(tuán)隊(duì)留言祝賀,像極了我們關(guān)注 AI 各種進(jìn)展的每個(gè)普通人。
而在 DeepSeek 火了以后一切也發(fā)生了變化。
邵智宏在發(fā)布 DeepSeek Coder 模型時(shí)的轉(zhuǎn)發(fā),閱讀也只有 2000 多。
于是這些習(xí)慣于簡潔明了做學(xué)術(shù)交流的推文以及回復(fù),也開始帶上能力宣示的意味。
DeepSeek 基礎(chǔ)設(shè)施團(tuán)隊(duì)的許哲安在 V3 因成本而引發(fā)熱議后在推特的一句簡單回復(fù),得到 4.6 萬的閱讀。
"yes"
而他給自己的簡介是 " 基礎(chǔ)設(shè)施團(tuán)隊(duì)里隨便一個(gè)人 "。
不懂 RL 的數(shù)學(xué)天才分享在 DeepSeek 的研究方式
另一個(gè)直觀感受是,這些研究員的背景很不一樣。此前有接近 DeepSeek 的人分享的招聘經(jīng)歷稱,DeepSeek 喜歡找復(fù)合背景,尤其基礎(chǔ)學(xué)科的人才。
而在關(guān)于 DeepSeek 的技術(shù)報(bào)告的討論里,有人形容其中公式簡潔明了,把 SFT 和大多數(shù)的 RL 類型統(tǒng)一到了一個(gè)公式里。這種對(duì)算法的理解——所有這些訓(xùn)練方法是事實(shí)可以被構(gòu)建為同一個(gè)數(shù)學(xué)原理,是簡潔而美妙的。
而參與了 DeepSeek 幾代重要模型的 Peiyi Wang 則在推特上,直接分享了自己的研究歷程:
" 去年我加入 DeepSeek,沒有任何強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)。在進(jìn)行 Mathshepherd 和 DeepSeekMath 研究時(shí),我獨(dú)立推導(dǎo)出了這個(gè)統(tǒng)一公式,以了解各種訓(xùn)練方法。感覺就像是一個(gè) " 頓悟時(shí)刻 ",盡管我后來意識(shí)到這些就是 Policy Gradient(策略梯度)。"
和其他研究員一樣,翻看 Peiyi Wang 的推特,他也一直在和社區(qū)交流自己的研究,而在 DeepSeek 被更多人關(guān)注到后,他第一時(shí)間分享的是好奇心。把真實(shí)情況分享給社區(qū)的開源精神明顯。這種分享在今天越來越不說人話創(chuàng)造大詞的 AI 圈里,能帶來十分難得的接地氣的討論。
對(duì) DeepSeek 內(nèi)部來說,超越 ChatGPT 有多重要
大部分時(shí)候,這些研究員在各自關(guān)注自己關(guān)心的領(lǐng)域,但最近他們有個(gè)共同的慶祝時(shí)刻:
超越 ChatGPT。
多個(gè)研究員轉(zhuǎn)發(fā)了 DeepSeek 的 app 登頂應(yīng)用商店并超過 ChatGPT 的新聞。
" 每一次突破都提醒我們,還有很多東西需要學(xué)習(xí)和改進(jìn)。讓我們一起繼續(xù)突破界限!"
" 這個(gè)時(shí)刻對(duì)我來說簡直太現(xiàn)象級(jí)了。" 潘子正寫到。此前他在英偉達(dá)的導(dǎo)師曾分享過他的經(jīng)歷,曾在英偉達(dá)實(shí)習(xí)的潘子正在 2023 年卻毅然決然回國加入了當(dāng)時(shí)只有 3 人的 DeepSeek 多模態(tài)團(tuán)隊(duì)。現(xiàn)在這個(gè)決定帶來了兌現(xiàn)的時(shí)刻。
而在 OpenAI 傳出對(duì) DeepSeek 的蒸餾指控后,這些研究員也做出了隔空回應(yīng):
從這些分享也能看出,在內(nèi)部,戰(zhàn)勝一次 OpenAI 對(duì)他們來說有多重要。
另一個(gè)最近讓這些研究員紛紛轉(zhuǎn)發(fā)的,是對(duì)一個(gè)虛假賬號(hào)的辟謠。一個(gè)冒充梁文鋒的賬號(hào)在推特出現(xiàn),還得到大量關(guān)注。
從這些研究員的分享看,R1 系列的發(fā)布原本就是一個(gè)春節(jié)禮物。但看起來這個(gè)效果出乎他們自己的預(yù)料,也加速了他們和 OpenAI 的繼續(xù)競爭。
" 春節(jié)期間讓我最興奮的事情,是親眼見證了 R1-Zero 模型性能曲線的 持續(xù)增長,并真正的感受到強(qiáng)化學(xué)習(xí)的力量。"DeepSeek 研究員郭達(dá)雅在推特上感慨。他 2023 年剛剛博士畢業(yè),參與了 DeepSeek 一系列數(shù)學(xué)和代碼的模型工作。
而他也由此開始做了一次難得的小型問答,并被大家以對(duì)待 OpenAI 自己爆料的規(guī)格對(duì)待,認(rèn)為這是難得的劇透。在幾個(gè)問答里,透露了一些令人興奮的信息。
—— " 想問下模型的性能持續(xù)提升能持續(xù)多久呢?現(xiàn)在是早期階段嗎?DeepSeek 的 RL 模型是像 GPT-2 時(shí)刻一樣還是已經(jīng)到 GPT-3.5 這種比較成熟的階段,快到瓶頸了?"
郭達(dá)雅: " 我覺得我們還處于非常早期的階段,RL 領(lǐng)域還有很長的路要探索。但我相信今年會(huì)看到顯著的進(jìn)展。"
—— " 基于 R1-Zero 的性能,如何評(píng)估模型是真的具備了泛化能力,還是僅僅記憶了狀態(tài)轉(zhuǎn)換和獎(jiǎng)勵(lì) ?"
郭達(dá)雅:" 我們使用 RL prompt 未覆蓋的領(lǐng)域的基準(zhǔn)來評(píng)估泛化能力。目前來看,它似乎具備泛化能力 "
—— " 這次 RL 訓(xùn)練跑了多久?"
郭達(dá)雅: "660B 參數(shù)的 R1-Zero 和 R1 是在 V3 發(fā)布之后才開始跑的,訓(xùn)練大約花了 2-3 周。之前我們提到的 R1 模型其實(shí)是 R1-Lite 或者 R1-Lite-Zero"
—— " 你們有沒有嘗試用 RL 來搞 形式化證明環(huán)境,而不是只做問答對(duì)?今年如果有開源模型能在 IMO 拿金牌就好了。"
郭達(dá)雅: " 我們也在嘗試將 R1 應(yīng)用于 Lean 這樣的形式化證明環(huán)境。我們希望盡快向社區(qū)發(fā)布更好的模型 "
—— " 下一個(gè)模型更新?"
郭達(dá)雅:" 我們并不確定模型會(huì)在何時(shí)更新,因?yàn)樗Q于實(shí)驗(yàn)的進(jìn)程。我們沒有設(shè)置 deadline。但當(dāng)模型有顯著的進(jìn)步時(shí),一般我們自然就會(huì)做發(fā)布和更新。"
這些回答信息量巨大,更重要的是,它們顯得十分真誠,都關(guān)乎 DeepSeek 的核心技術(shù)和發(fā)展方向,回答也都圍繞技術(shù)本身,沒有故弄玄虛,沒有在刻意用那些 AGI 的敘事去收獲泡沫式的關(guān)注,討論的都是具體而真實(shí)的研究。
此前,前 OpenAI 的研究員 Andrej Karpathy 曾說,今天 AI 界真正在改變世界的愛因斯坦們,可能在架構(gòu)表里藏在 CEO 以下 5 層。
從對(duì) DeepSeek 的組織形態(tài)的各種研究來看,這是一個(gè)極其扁平的組織,有 OpenAI 和英偉達(dá)的味道,不論層級(jí),可以直接像 CEO 匯報(bào),也可以跨部門打散整合,因此不同模型能力也可以隨時(shí)因重要的創(chuàng)新而共同協(xié)作。
而對(duì)于一個(gè)注定要影響人類未來的技術(shù),把它交給每天都有新的莫名其妙的新名詞出現(xiàn)的團(tuán)隊(duì),和把它交給看起來依然是熱情洋溢的鮮活的個(gè)體的團(tuán)隊(duì),后者可能更能讓普通人對(duì)關(guān)鍵的話題參與進(jìn)去。
這些具體在做著自己相信的研究的年輕 AI 科學(xué)家,看起來確實(shí)在改變著世界。