36 氪獲悉,中信建投研報表示,Deepseek 發(fā)布深度推理能力模型。R1-Zero 采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,證明了大語言模型僅通過強(qiáng)化學(xué)習(xí)也可以有強(qiáng)大的推理能力,DeepSeek-R1 經(jīng)歷微調(diào)和強(qiáng)化學(xué)習(xí)取得了與 OpenAI-o1-1217 相媲美甚至超越的成績。DeepSeek R1 訓(xùn)練和推理算力需求較低,主要原因是 DeepSeek R1 實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。過去的預(yù)訓(xùn)練側(cè)的 scaling law 正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會呈現(xiàn)爆發(fā)式上漲,充足的算力需求對于人工智能模型的性能進(jìn)步依然至關(guān)重要。
36氪
7分鐘前