剛推出 o3-mini 的 OpenAI 沒閑著,昨天又馬不停蹄地發(fā)布了一個新東西:能為用戶獨立工作的 AI 研究助手「Deep Research」。
Deep Research 是 ChatGPT 內(nèi)嵌的一款增強工具,專為自動化復雜的在線多步驟研究任務(wù)而設(shè)計。不光中英文名字跟 DeepSeek 高度相似,就連功能也頗為相近:
用戶只需輸入提示,它就會在互聯(lián)網(wǎng)上快速搜索、分析并整合上百個信息來源,最終生成質(zhì)量媲美專業(yè)研究分析師的綜合報告。
原本人類需要數(shù)小時完成的研究工作,Deep Research 在短短幾十分鐘內(nèi)即可完成。其目標用戶覆蓋金融、科學、政策和工程等領(lǐng)域的專業(yè)人士。像是解讀 10-K 財報、分析實驗數(shù)據(jù)、研究法律案例、檢索技術(shù)文檔等復雜任務(wù)。同時也適用于需要精細研究的消費者。當購買汽車、電器、家具等高價值商品難以抉擇時,Deep Research 就會提供高度個性化的消費建議。
官方介紹,Deep Research 由一個優(yōu)化版的 o3 模型驅(qū)動,專注于網(wǎng)頁瀏覽和數(shù)據(jù)分析,并基于端到端強化學習 ( RL ) 進行訓練。它能做到在互聯(lián)網(wǎng)上跨模態(tài)搜索、解讀和分析大量文本、圖片及 PDF 文件,同時根據(jù)實時信息動態(tài)調(diào)整搜索策略。
除網(wǎng)絡(luò)搜索外,它還可以分析用戶上傳的文件并提取關(guān)鍵內(nèi)容;使用 Python 工具制作數(shù)據(jù)可視化圖表,將這些圖表和網(wǎng)站抓取的圖片整合到回復中;為了保證研究結(jié)果的可靠性,系統(tǒng)也會嚴格標注信息來源,精確引用原文中的相關(guān)段落。
怎么用,誰能用?
Deep Research 的使用非常簡單:在 ChatGPT 界面選擇 "Deep Research" 模式后,輸入研究需求即可。如果有具體的參考資料,也可以直接上傳文件提供更多上下文信息。
整個研究過程會在側(cè)邊欄實時顯示進度和參考來源,通常耗時 5 到 30 分鐘。這期間用戶可以先去處理其他事務(wù)。研究完成后,系統(tǒng)會通知查看報告。未來幾周內(nèi)還將支持在報告中展示圖表等可視化內(nèi)容,提升閱讀體驗。
與注重實時多模態(tài)對話的 GPT-4o 相比,Deep Research 專注于深度研究,不僅能廣泛收集信息,還會為每個結(jié)論附上詳細的源頭依據(jù),最終生成一份完整且經(jīng)過驗證的研究成果,直接滿足工作需求。
下面是一個 OpenAI 官網(wǎng)示例,展示用 Deep research 生成 " 零售業(yè)三年變革 " 報告的工作過程。值得注意的是,獲得指令后它還主動要求用戶澄清地域范圍與關(guān)注維度,體現(xiàn)出類人交互能力。
只是由于 Deep Research 的計算需求非常高,查詢耗時越長,所需的計算資源就越大。所以目前僅優(yōu)先提供 Pro 每月 100 次查詢額度,預計一個月內(nèi)開放給 Plus、Team 和 Enterprise 用戶。
OpenAI 還計劃推出更快、更具成本效益的小型模型版本。未來允許連接到更專業(yè)的訂閱數(shù)據(jù)源,使輸出更加可靠和個性化。以及與能自動操作計算機的 Operator 結(jié)合,實現(xiàn) " 行動—研究 " 閉環(huán)。
和 DeepSeek 比誰贏了?
說起來,OpenAI 這款 Deep Research 由于命名與 DeepSeek 相似,又頗有趕著出來反擊的意味,著實被廣大推特網(wǎng)友調(diào)侃了一番。還預測今后各大模型廠商都要調(diào)轉(zhuǎn)矛頭,開啟 Deep 系列了。
不過與其說 OpenAI 此次的靈感來源于 DeepSeek,倒不如說直接做了 Google 的伸手黨。去年 12 月,Gemini 訂閱版本里就集成了「Gemini 1.5 Pro with Deep Research 」功能,同樣是一款幫用戶深度研究的智能體,也具備聯(lián)網(wǎng)和上傳文件的能力,只是底座模型并非推理模型。
然而,Deep Research 真正的突破點,以及幾項在基準測試上超過 DeepSeek 的關(guān)鍵優(yōu)勢,并未在上表中被突出展示——即 HLE、GAIA 和 Expert-Level Tasks。
這都是什么意思?
HLE (Humanity ’ s Last Exam)翻譯為 " 人類終極測試 ",涵蓋 100 多個學科,從語言學到航天科學、從經(jīng)典文學到生態(tài)學,總計超過 3,000 道多選題和簡答題。旨在評估 AI 表現(xiàn)是否達到人類水平。測試時會讓 AI 和人類專家完成相同的任務(wù),然后比較他們的表現(xiàn),看看 AI 的輸出質(zhì)量是否能夠媲美人類專家。
在這項測試中,Deep Research 準確率高達 26.6%,橫掃包括 o3-mini-high(得分 13%)和 Deep Seek R1(得分 9.4%)在內(nèi)的一切競爭對手。
"1959 年 7 月 2 日,美國發(fā)布了加工水果、蔬菜及某些脫水類產(chǎn)品的等級標準。其中," 干燥和脫水 " 類別下明確標注為 " 脫水 " 的項目,以及 " 冷凍 / 冷藏 " 類別中完整名稱包含該產(chǎn)品但未標注為 " 冷藏 " 的項目均適用該標準。截至 2023 年 8 月,這些標準中已有多少百分比(四舍五入到最接近的整數(shù))被新版本取代?" ——是不是覺得讀明白都有困難…
有推特用戶為了驗證它的綜合能力提出一系列問題,從總結(jié)歷史到分析小說,再到研判財務(wù)違規(guī),DeepSeek 都回答得不錯。但也提到 Deep Research 有一定限制,比如引用不完全,沒有暫停按鈕。但瑕不掩瑜,這仍然是 " 人類與 AI 協(xié)作的巔峰 "。
杰克遜實驗室和前紐約大學教授、人類免疫學家 Derya Unutmaz 使用 Deep Research 撰寫了一份 25 頁的癌癥研究專利,表示質(zhì)量完全過關(guān),省下 1 萬美元費用。
OpenAI 表示,盡管 Deep Research 解鎖了許多新功能,但仍處于早期階段,存在一些局限性。包括幻覺問題(可能捏造事實或錯誤推斷)、難以區(qū)分權(quán)威信息與傳言、可信度校準不足、以及報告和引用格式上的輕微錯誤,同時某些任務(wù)的啟動時間可能較長。不過,隨著用戶使用量的增加和模型的持續(xù)優(yōu)化,這些問題有望在短時間內(nèi)顯著改善。
現(xiàn)在推特上的 ChatGPT Pro 用戶評論區(qū)底下,已經(jīng)有大批網(wǎng)友排隊問問題,期待幫忙用 Deep Research 來解答了??梢韵胂?,等這項功能向 Plus 用戶開放后,OpenAI 優(yōu)化算力基礎(chǔ)設(shè)施有多么迫在眉睫。在推理模型的進化帶動下,AI 輔助工具的發(fā)展正在從簡單的對話助手,逐步向?qū)I(yè)研究助手轉(zhuǎn)變。
OpenAI 這一波發(fā)力,是否從 DeepSeek 那兒贏回一些好感,能撬動用戶的付費意愿了嗎?
但這還沒結(jié)束,Sam Altman 已經(jīng)透露,Deep Research 并不是 o3-mini 的 one more thing,過幾天還有驚喜。
如果 DeepSeek 真地能讓 OpenAI 重新支棱起來,對于用戶來說,倒也不是一件壞事。