国产一级黄片视频_精品无码免费成a人片_久久婷婷国产综合尤物精品_日韩精品亚洲精品无码专区

關(guān)于ZAKER 合作
極客公園 6分鐘前

面壁、智譜,卷上新賽道

文 | 黎詩韻

編輯 | 鄭玄

去年 5 月,OpenAI 推出可實(shí)時(shí)語音交互的「4o」模型,相當(dāng)于模型長出了「耳朵」和「嘴巴」。到去年 12 月,OpenAI 宣布在高級語音模式中加入視頻通話和屏幕共享,相當(dāng)于模型長出了「眼睛」,電影《Her》中人工智能助理慢慢成為現(xiàn)實(shí)。

而在國內(nèi),大模型公司也在加快布局這一技術(shù)方向。1 月 16 日,主打端側(cè)模型的公司面壁智能宣布推出全球首個(gè)媲美「4o」的端側(cè)模型「MiniCPM-o 2.6」,僅 8B 參數(shù),能在端側(cè)實(shí)現(xiàn)實(shí)時(shí)流暢的音視頻通話,團(tuán)隊(duì)稱該模型能實(shí)現(xiàn)「以端勝云」的效果。

同一天,智譜宣布推出全新端到端模型「GLM-Realtime」,能實(shí)現(xiàn)低延遲的視頻理解與語音交互,同時(shí)模型融入了清唱功能,還能支持 2 分鐘的記憶及 Function Call(能調(diào)用外部知識和工具)功能。這是自 8 月「智譜清言」上線視頻通話功能之后,智譜在「4o」技術(shù)方向上的又一進(jìn)展。

國內(nèi)模型公司搶跑「4o」系列模型,一方面因?yàn)樗谴蛟烊斯ぶ悄艹壷恚ˋI Agent)的重要一環(huán),另一方面它可能也是 AI 硬件進(jìn)化的關(guān)鍵。

近期 AI 硬件火熱背后,在于它展現(xiàn)出了成為下一代智能交互入口的可能。作為最靠近人類的設(shè)備,AI 硬件能感知真實(shí)物理世界、收集數(shù)據(jù),再通過內(nèi)嵌的智能,有望給人類帶來交互的革命性體驗(yàn)——而這個(gè)過程里,「看」是相當(dāng)關(guān)鍵的,因?yàn)槿祟惤邮盏男畔⒗锛s 80% 來自視覺——因此,解鎖實(shí)時(shí)視頻能力的「4o」系列模型或?qū)⒊蔀榧夹g(shù)關(guān)鍵。

目前,「MiniCPM-o 2.6」和「GLM-Realtime」都已經(jīng)在硬件落地。不過分別是端側(cè)部署、調(diào)用云端 API。據(jù)面壁智能介紹,「MiniCPM-o 2.6」將率先落地于汽車、機(jī)器人等硬件生態(tài)。據(jù)智譜介紹,「GLM-Realtime」API 已被集成到智能眼鏡和陪伴娃娃中。

「我們相信實(shí)時(shí)視頻 & 語音能力,將為 AI 硬件的爆發(fā)奠定堅(jiān)實(shí)的智能基礎(chǔ)?!怪亲V表示。

和追平「4o」性能同樣重要的,是如何最高效地實(shí)現(xiàn)它

2020 年,OpenAI 發(fā)布「GPT-3」,訓(xùn)練參數(shù)約為 1750 億;到了 2024 年,面壁智能發(fā)布「MiniCPM -2.4B」——和 GPT-3 同等性能、但參數(shù)僅為 24 億,相當(dāng)于模型智能密度提高了 86 倍。

在國內(nèi)的大模型公司里,只有面壁智能公開宣稱「高效」是第一性原理。核心是通過提高模型訓(xùn)練效率,用最小參數(shù)、實(shí)現(xiàn)同等模型性能。在 2024 年 12 月的一場活動(dòng)上,面壁智能聯(lián)合創(chuàng)始人、CEO 李大海認(rèn)為,模型的智能密度在加速提升,可稱為「Densing Law」(密度定律 ) :大模型的智能密度將從平均每 8 個(gè)月提升一倍,縮短為每 3.3 個(gè)月。

「今年年初我們讓 GPT-3 水平的模型上了端,9 月份讓 GPT-3.5 水平的模型上了端,未來會讓 GPT-4o 及更高水平模型上端。」他據(jù)此做出預(yù)言。

一個(gè)月過去,他的預(yù)言就實(shí)現(xiàn)了。1 月 16 日,面壁宣布旗下「MiniCPM-o 2.6」追平了「4o」——「4o」的參數(shù)并未公開,一篇微軟的論文透露它仍為百億參數(shù)——而「MiniCPM-o 2.6」只有 8B,它因此成為全球?qū)?biāo)「4o」最小的模型、也是首個(gè)端側(cè)對標(biāo)「4o」的模型。

如果說「4o」核心性能分為實(shí)時(shí)視覺、實(shí)時(shí)聽覺、實(shí)時(shí)語音三方面,面壁智能稱「MiniCPM-o 2.6」在這三方面均逼近「4o」。

在實(shí)時(shí)流式視頻理解能力的代表榜單 StreamingBench 上,它取得實(shí)時(shí)流式全模態(tài)開源模型 SOTA;在視覺理解能力上,實(shí)現(xiàn)端側(cè)全模態(tài)模型 SOTA;在語音理解方面,它超越「Qwen2-Audio-7B-Instruct」,實(shí)現(xiàn)通用模型開源 SOTA(包括 ASR、語音描述等任務(wù));在語音生成方面,它超越「GLM-4-Voice 9B」,實(shí)現(xiàn)通用模型開源 SOTA;

在評估全模態(tài)模型音視頻能力的多個(gè)榜單上,MiniCPM-o 2.6 能力全面且逼近 GPT-4o | 圖片來源:面壁智能

對于「MiniCPM-o 2.6」多模態(tài)技術(shù)的關(guān)鍵,MiniCPM-o 技術(shù)負(fù)責(zé)人、清華大學(xué)博士后姚遠(yuǎn)總結(jié)為三點(diǎn):一是采用端到端全模態(tài)流式架構(gòu),高效整合語言、視覺和語音信息,實(shí)現(xiàn)了端到端的聯(lián)合學(xué)習(xí);二是引入低延遲模態(tài)并布技術(shù),將時(shí)間劃分為多個(gè)循環(huán)時(shí)間片、分別處理窗口和輸入,大幅降低了響應(yīng)延遲;三是高級多模態(tài)學(xué)習(xí),基于「語言行為理論」,模型不僅能進(jìn)行信息傳遞,更能通過觀察和角色扮演,達(dá)到更高級的心智水平,為參與人類社會活動(dòng)打下了基礎(chǔ)。

目前 MiniCPM-o 2.6 已經(jīng)被部署到了 iPad 終端設(shè)備上,在實(shí)際 demo 演示中,可以看到「MiniCPM-o 2.6」能猜出游戲中小球藏到了哪個(gè)杯子、記住翻牌游戲中卡片的細(xì)節(jié);能識別說話聲,翻書、倒水、敲門聲等;能說四川話、廣東話等方言,擴(kuò)充各種情感、音色、風(fēng)格等。

而同一天推出的「GLM-Realtime」則有自己的創(chuàng)新:比如視頻通話具備 2 分鐘的內(nèi)容記憶能力,在 demo 中演示人員走過幾幅春聯(lián)之后,問模型一分鐘前它看到的對聯(lián)內(nèi)容,它能回答上來;比如在語音交互方面,它首次讓大模型擁有了歌唱能力,在 demo 中它清唱了一首《過年好》;它也在向更智能的 Agent 演進(jìn),已經(jīng)可以調(diào)用其他應(yīng)用,幫人類查詢天氣、預(yù)訂酒店等。

無論是云側(cè)還是端側(cè)模型,似乎能看到在追逐模型性能的同時(shí),同等重要的是如何用更高效的訓(xùn)練完成它。前者如 DeepSeek,后者如面壁智能。

在李大??磥?,兩者的高效訓(xùn)練路徑有所不同:DeepSeek 代表的云側(cè),主要是研究 MOE 架構(gòu)的上限,通過更多、更高的專家模型和更高的任務(wù)分配準(zhǔn)確率,讓模型能以較少的激活參數(shù)量達(dá)到更好的效果。

而對于面壁代表的端側(cè)來說,MoE 架構(gòu)并不適用,稀疏化才是關(guān)鍵。面壁率先推出 WSD(Warmup-Stable-Decay)學(xué)習(xí)率調(diào)度器,通過預(yù)熱、穩(wěn)定、衰減三個(gè)階段的學(xué)習(xí)率調(diào)整,提升模型訓(xùn)練效率。如今幾乎被行業(yè)所有中小模型在訓(xùn)練中借鑒。接下來,面壁還將繼續(xù)進(jìn)行訓(xùn)練過程、數(shù)據(jù)工程、數(shù)據(jù)治理和模型架構(gòu)的創(chuàng)新。

「4o」模型,助力 AI 硬件成為下一代智能交互入口

在剛剛過去的 2025 CES 上,AI 硬件成為了最熱門的方向,「百鏡大戰(zhàn)」、「智能耳機(jī)」、「AI 陪伴寵物」等等被討論最多。參加完 CES,李大海認(rèn)為大模型正在走向「無所不能」和「無處不在」,他篤信大模型將「無處不在」。

AI 硬件大火的背后,是它展現(xiàn)出了成為下一代交互入口的可能。作為最靠近人類的設(shè)備,AI 硬件能感知真實(shí)物理世界、收集數(shù)據(jù),再通過內(nèi)嵌的智能,有望給人類帶來交互的革命性體驗(yàn)。

「10 年之后,至少有 1000 億硬件會搭載端側(cè)智能,成為擁有人類成年智能水平的新型智能人口?!估畲蠛1硎?。

在這個(gè)過程里,「看」是相當(dāng)關(guān)鍵的,因?yàn)槿祟惤邮盏男畔⒗锛s 80% 來自視覺——因此,解鎖實(shí)時(shí)視頻能力的「4o」系列模型或?qū)⒊蔀榧夹g(shù)關(guān)鍵。目前,「MiniCPM-o 2.6」和「GLM-Realtime」模型落地的第一站都是硬件。

據(jù)智譜介紹,「GLM-Realtime」API 已被集成到智能眼鏡和陪伴娃娃中,在 demo 演示中,「GLM-Realtime」合作的是 Inmo 影目智能眼鏡。

「GLM-Realtime」搭載于眼鏡中 | 圖片來源:智譜 AI

據(jù)面壁智能介紹,「MiniCPM-o 2.6」將率先落地于汽車、機(jī)器人等硬件生態(tài)。李大海表示,目前模型更傾向應(yīng)用于「具身化」——即硬件需要像人一樣感知周圍環(huán)境——程度更高的硬件設(shè)備。在這個(gè)定義下,汽車、人形機(jī)器人,就比手機(jī)、電腦的具身化程度更高。

對這些硬件設(shè)備而言,加入「4o」系列模型的實(shí)時(shí)視頻能力,將有助于它們的進(jìn)化。比如在人形機(jī)器人領(lǐng)域,「4o」系列模型或能補(bǔ)上機(jī)器人大腦、小腦、本體的重要拼圖,助力人形機(jī)器人底層技術(shù)的突破。在去年的世界機(jī)器人大會上,面壁智能就和人形機(jī)器人廠商「加速進(jìn)化」合作,實(shí)現(xiàn)了業(yè)內(nèi)首個(gè)端側(cè)模型在人形機(jī)器人上的應(yīng)用。

IDC 預(yù)測,2024 年中國終端設(shè)備市場中,將有超過半數(shù)的設(shè)備在硬件層面具備針對 AI 計(jì)算任務(wù)的算力基礎(chǔ)。至 2027 年,這一比例將進(jìn)一步攀升至接近 80% 的水平。

在 AI 硬件爆發(fā)的未來,端側(cè)模型或許會迎來巨大機(jī)遇。

由于參數(shù)量小,端側(cè)模型只需消費(fèi)級終端算力芯片和內(nèi)存配置就能運(yùn)行。相較云端模型,其優(yōu)勢包括:更快的響應(yīng)速度、本地部署的更高隱私性、無需聯(lián)網(wǎng)的更高便利性、更低的模型推理成本等等,這意味著它可能會有更快、更廣的應(yīng)用空間。這是面壁智能成立之初看到的未來,也是它提升訓(xùn)練效率、降低模型參數(shù)的根本動(dòng)力。

將「4o」級別模型在端側(cè)跑通后,這個(gè)未來似乎越來越近了。

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評論

沒有更多評論了
極客公園

極客公園

這里匯聚著優(yōu)秀的產(chǎn)品觀察報(bào)道、高質(zhì)量的線下活動(dòng)

訂閱

覺得文章不錯(cuò),微信掃描分享好友

掃碼分享