国产一级黄片视频_精品无码免费成a人片_久久婷婷国产综合尤物精品_日韩精品亚洲精品无码专区

關(guān)于ZAKER 合作
硅星人 01-25

上手智譜 GLM-PC :幫你搶春運票、發(fā)微信,還不用付 200 美元,有它還要啥 OpenAI 的 Operator

開年 OpenAI 放出了第一個王炸:Operator,定睛一看,這不是早就上線的智譜智能體 AutoGLM 和 GLM-PC 么?

早在今年 10 月 25 日,智譜便上線了移動端和 Web 端插件形式的 AutoGLM,它只需接收簡單的文字 / 語音指令,它就可以模擬人類操作手機和瀏覽器。11 月 29 日,智譜上線了更大權(quán)限的,基于 PC 的自主 Agent:GLM-PC,并于 2025 年 1 月 23 日,更新了 1.1 版本,并全面公測。

從效果上看,OpenAI 展示的一些 Operator 的應(yīng)用場景,AutoGLM 也完全能搞定,以瀏覽器插件的形式增強了產(chǎn)品靈活性的同時進一步降低了門檻,更重要的是,完全免費,立省 200 美元!

比如,AutoGLM 能夠自主的在 YouTube 里給 Operator 寫上一句 " 商業(yè)互吹 ",或者去 X 里給 Operator 點贊。

亦或是在 OpenTable 上預(yù)訂好餐廳的多任務(wù)分步處理,AutoGLM 都能夠做到絲滑完成。

升級后的 GLM-PC 與基于 Web 端的 Agent 有著更大的權(quán)限以此拓寬能力邊界,比如 GLM-PC 不僅能夠預(yù)訂餐廳,更能在系統(tǒng)中 book 日歷提醒,來保證準時赴約。

硅星人全面測評了最新版本的 GLM-PC,接管整個電腦的權(quán)限后,它不僅能發(fā)微信、整理文件,還可以通過手機遠程遙控 GLM-PC 進行協(xié)作,甚至還在這個一票難求的春運時間,不間斷操作幫我搶到了回家的火車票 ...

懂事的 PC,已經(jīng)學會自己搶車票、買年貨了

當 GLM-PC 能夠控制電腦后,會發(fā)生什么?

GLM-PC 分為兩種模式:極速模式和深度思考模式,其中極速模式并不支持附件上傳和多輪對話,也就是端到端的 text to action,通過手機遠程遙控也僅支持極速模式;而深度思考模式則會展現(xiàn)思考鏈路和邏輯,輸入和輸出內(nèi)容更加豐富,可執(zhí)行的指令也更加復(fù)雜。

在 GLM-PC 提供的案例中,有 " 群發(fā)助手 " 的引導(dǎo),對話框中是一段預(yù)設(shè)的 prompt,本以為要測試的我,忘記了自己的微信中真的有一個名為「相親相愛一家人」的群。于是 GLM-PC 開始自動操作準備給每一位群友發(fā)上一段祝福,哪怕被我緊急攔截,也已經(jīng)群發(fā)了 10 個人。

一開始,我們用它來執(zhí)行了一些相對簡單的任務(wù),比如用它來查找關(guān)于 OpenAI 的最新新聞,閱讀了相關(guān)文章后幫我簡單整理一下基本信息傳回,同時基于智譜清言的語言理解能力,對新聞事件進行了分析。

接著難度逐漸升級,我讓 GLM-PC 在小紅書上找到推薦的北京粵菜館,GLM-PC 在小紅書中搜索了關(guān)于北京粵菜館的帖子進行分析,它竟然還聰明地知道閱讀評論,在評論中找到幾家推薦比較多的餐廳,然后跳轉(zhuǎn)到大眾點評中查了評分,最后將 4.5 分以上的餐廳整理進名單,回傳給我。

還真別說,最終篩選出來的幾家粵菜館,味道真的不錯也避雷了網(wǎng)紅餐廳。

要過年了,AI 能不能替我挑選點年貨,加到淘寶的購物車里?

在這個過程中,展示了 GLM 的多層分析能力,畢竟年貨不是某一種具體的商品,在我向它提出這個需求時,它先是思考,送給父母年貨包括五谷雜糧、保健品、家電,雖然不一定完全符合父母的心意,但對類別的判定相對準確。

緊接著它在淘寶中分類搜索了具體的商品,而不是直接搜索 " 年貨 " 兩個字,當然,過程中出現(xiàn)了一些 bug,當它搜索谷子的時候,跳出來是二次元文化的吧唧,不夠時髦的 GLM-PC 一時間沒能理解這并不是目標商品,仍然將它加進了購物車。

GLM-PC 還化身為了搶票神器,還沒搶到回家車票的我,讓 GLM-PC 幫我買最早一班的車票,它不僅查了幾天的車票情況,還慷慨的幫我點選了商務(wù)座,結(jié)果成功買到一張 26 日的一等座。

不過在我們的測試中,也發(fā)現(xiàn)了涉及到賬號登錄、掃碼登錄的頁面,GLM-PC 沒辦法自主操作,也不會停下來,而是不停地重復(fù)該頁面。

與 Operator 一樣,GLM-PC 也做了敏感性測試,讓用戶在敏感時刻,比如確認提交信息、確認支付等頁面接盤操作。

同時,在 GLM-PC 操作電腦頁面時,會由 GLM-PC 主導(dǎo)鼠標,人為干預(yù)后仍然繼續(xù) GLM 的流程,只能按下暫停鍵或結(jié)束鍵才能完全交予人類接管。

GLM-PC 怎么做到的?

在技術(shù)路線上,GLM-PC 與 Operator 采用的是同一種技術(shù)方案:基于多模態(tài)大模型的視覺識別與空間進行交互。

據(jù) OpenAI 介紹,Operator 基于最新研發(fā)的Computer-Using Agent ( CUA ) 模型,通過觀察屏幕并使用虛擬鼠標和鍵盤來完成任務(wù),而無需依賴專門的 API 接口。

早在 2023 年 12 月,智譜便發(fā)布了 CogAgent,是其第一個基于視覺語言模型(Visual Language Model, VLM)的開源 圖形界面智能體 GUI Agent 模型。GLM-PC 即是基于該模型的初代產(chǎn)品。據(jù)開發(fā)文檔中介紹,通過多模態(tài)感知實現(xiàn)全 GUI 空間交互。這些 GUI Agent,類似人類,能以視覺形式感知界面元素與布局,模擬人類進行點擊、鍵盤輸入等元操作,極大拓展了 Agent 在虛擬交互空間的應(yīng)用邊界。

在 GLM-PC 1.1 版本中,使用更強大的視覺語言模型 GLM-4V-9B 作為基座模型,用來提升模型的基座圖像理解性能。

與 Operator 相同的是,基于 LLM 模型提出 Prompt,同時輸入的模態(tài)(圖像感知)、輸出的操作空間(點擊、滾動、鍵盤輸入)的交互方式一致,同時思考了 Agent 和人類的使用權(quán)交接情況,對于敏感時刻的判斷等等。

且在介紹中,Operator 令 Sam Altman 頗為驕傲的是它的自我進化和自我反思能力,即 Operator 可通過不斷操作和學習掌握人類的習慣,不斷拓寬自身的能力邊界。

GLM-PC 也基于智譜自研的「基礎(chǔ)智能體解耦合中間界面」和「自進化在線課程強化學習框架」,其中包括了一種核心技術(shù)WebRL,對于大模型智能體任務(wù)規(guī)劃、訓(xùn)練任務(wù)和數(shù)據(jù)稀缺、反饋信號稀少和多任務(wù)策略分布等問題進行了有意識的對抗,加之自適應(yīng)學習策略,能夠在迭代過程中不斷改進,持續(xù)穩(wěn)定提高自身性能,并在執(zhí)行過程中獲取更多新技能。

不同的是,目前 Operator 現(xiàn)階段僅針對 Web 端,并且與 ChatGPT 綁定付費,而 GLM-PC 是獨立的 App,可針對電腦進行操作(包括瀏覽器和電腦本地),同時手機可遠程遙控操作電腦,并且完全免費。

從 Operator 的日志上看,Operator 一次僅能執(zhí)行單步的線性預(yù)測,和步驟執(zhí)行,而 GLM-PC 具備多層級規(guī)劃預(yù)測能力,并將 CogAgent 多模態(tài) GUI Agent 模型與 CodeGeex 代碼生成模型相結(jié)合,可實現(xiàn)復(fù)雜嚴謹?shù)倪壿嬁刂啤?/p>

但 GLM-PC 也對于硬件端的算力儲備有一定的限制,僅支持 M 系列的 Mac 電腦以及 Windows10 以上的系統(tǒng)。我們在 M1 芯片的 MacBook Air 上進行測試,整個過程中并未出現(xiàn)卡頓情況。

總的來看,GLM-PC 更適合國內(nèi)的互聯(lián)網(wǎng)環(huán)境,移動端和 PC 端聯(lián)動也更符合日常的使用習慣。據(jù)硅星人了解,GLM-PC 也將根據(jù)用戶的反饋持續(xù)迭代交互體驗,真正解放了打工人的雙手!

相關(guān)標簽

相關(guān)閱讀

最新評論

沒有更多評論了
硅星人

硅星人

硅是創(chuàng)造未來的基礎(chǔ),歡迎登陸硅星球。

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享