競賽升溫!最新全球大模型榜單發(fā)布,阿里新模型超越 DeepSeek V3。
當(dāng)?shù)貢r間 2 月 4 日,在全球知名的 AI 模型評測平臺 Chatbot Arena 公布了最新一期的榜單。其中,阿里通義千問團隊的最新大語言模型 Qwen2.5-Ma 取得了優(yōu)異成績,在總體排名中躋身第 7,領(lǐng)先于 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等頂級專有大語言模型。
1 月 29 日凌晨,阿里通義千問團隊悄悄上線 Qwen2.5-Max,該模型一經(jīng)發(fā)布便在 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等主要基準(zhǔn)測試中取得領(lǐng)先成績,展現(xiàn)出與全球頂級模型比肩的性能。
據(jù)介紹,最新的 Qwen2.5-Max 采用了先進的專家混合(MoE)模型架構(gòu),預(yù)訓(xùn)練數(shù)據(jù)量超過 20 萬億個 token,運用監(jiān)督微調(diào)(SFT)和人類反饋強化學(xué)習(xí)(RLHF)技術(shù)進行優(yōu)化,在知識、編程、通用能力和人類對齊等方面表現(xiàn)優(yōu)異。
目前,全球開發(fā)者和企業(yè)可通過阿里云的生成式 AI 開發(fā)平臺 Model Studio 訪問 Qwen2.5-Max。
市場人士此前分析稱,此前過度聚焦 DeepSeek,卻忽視了包括阿里通義在內(nèi)的中國 AI 整體性追趕。行業(yè)媒體《信息平權(quán)》表示,若阿里 Qwen-2.5-max 這次的確性能超過 V3,可以對其 RL 推理模型給予更大期待。
Qwen2.5-Max 發(fā)布后,迅速吸引了海內(nèi)外用戶和開發(fā)者的大量關(guān)注。
有網(wǎng)友生動地概括,Qwen2.5-Max 相當(dāng)于 " 中文版的 ChatGPT",但水平要比后者 " 高得多 "。