你的專屬“鋼鐵俠”助手OSAgents來了!浙大等10個(gè)機(jī)構(gòu)全新綜述
一文看懂超級(jí)智能助手
OS Agents團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI
電影《鋼鐵俠》中,托尼·斯塔克的助手賈維斯(J.A.R.V.I.S.)能幫他控制各種系統(tǒng)并自動(dòng)完成任務(wù),曾讓無數(shù)觀眾羨慕不已。
現(xiàn)在,這樣的超級(jí)智能助手,終于變成現(xiàn)實(shí)了!
隨著多模態(tài)大語言模型的爆發(fā)式進(jìn)化,OS Agents橫空出世,它們能無縫操控電腦和手機(jī),為你自動(dòng)搞定繁瑣任務(wù)。
從Anthropic的Computer Use,到蘋果的Apple Intelligence,再到智譜AI的AutoGLM,以及Google DeepMind的Project Mariner,科技巨頭們的野心都指向了同一個(gè)目標(biāo):打造真正意義上的操作系統(tǒng)智能助手。
OS Agents 已經(jīng)不僅僅是“助手”,它們正在改寫“人機(jī)交互”的游戲規(guī)則。
最近,浙江大學(xué)聯(lián)手OPPO、零一萬物等十個(gè)機(jī)構(gòu)共同梳理了一篇綜述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不僅詳細(xì)解讀了OS Agents的硬核技術(shù)構(gòu)造,還盤點(diǎn)了它們的評(píng)估方法和未來挑戰(zhàn)。
科技行業(yè)的下一個(gè)新風(fēng)口,會(huì)是OS Agents嗎?
OS Agents商業(yè)學(xué)術(shù)同時(shí)迸發(fā)
像賈維斯這樣的超級(jí)AI助手,一般被稱為OS Agents,它們能夠通過操作系統(tǒng)(OS)提供的環(huán)境和接口(如圖形用戶界面,GUI),在諸如電腦或者手機(jī)等計(jì)算設(shè)備上自動(dòng)化的完成各類任務(wù)。
OS Agents有巨大的潛力改善全球數(shù)十億用戶的生活,想象一個(gè)世界:在線購物、預(yù)訂差旅等日?;顒?dòng)都可以由這些智能體無縫完成,這將大幅提高人們的生活效率和生產(chǎn)力。
過去,諸如Siri[1]、Cortana[2]和Google Assistant[3]等AI助手,已經(jīng)展示了這一潛力。然而,由于模型能力在過去較為有限,導(dǎo)致這些產(chǎn)品只能完成有限的任務(wù)。
幸運(yùn)的是,隨著多模態(tài)大語言模型的不斷發(fā)展,如Gemini[4] 、GPT[5] 、Grok[6] 、Yi[7] 和Claude[8] 系列模型(排名根據(jù)2024年12月22日更新的 Chatbot Arena LLM Leaderboard[9]),這一領(lǐng)域迎來了新的可能性。
(M)LLMs展現(xiàn)出令人矚目的能力,使得OS Agents能夠更好地理解復(fù)雜任務(wù)并在計(jì)算設(shè)備上執(zhí)行。
基礎(chǔ)模型公司和手機(jī)廠商近期在這一領(lǐng)域動(dòng)作頻頻,例如最近由Anthropic推出的Computer Use[10]、由蘋果公司推出的Apple Intelligence[11]、由智譜AI推出的AutoGLM[12]和由Google DeepMind推出的Project Mariner [13]。
其中,Computer Use利用Claude[14]與用戶的計(jì)算機(jī)直接互動(dòng),可以實(shí)現(xiàn)無縫的任務(wù)自動(dòng)化。
與此同時(shí),學(xué)術(shù)界已經(jīng)提出了各種方法來構(gòu)建基于(M)LLM的OS Agents。
例如,OS-Atlas[15]提出一種 GUI 基礎(chǔ)模型,通過跨多個(gè)平臺(tái)綜合 GUI 操作數(shù)據(jù),大幅改進(jìn)了模型對(duì) GUI 的操作能力,提升OOD任務(wù)的表現(xiàn)。
而OS-Copilot[16]則是一種OS Agents框架,能夠使智能體在少監(jiān)督情況下實(shí)現(xiàn)廣泛的計(jì)算機(jī)任務(wù)自動(dòng)化,并展示了其在多種應(yīng)用中的泛化能力和自我改進(jìn)能力。
△OS Agents的部分代表性商業(yè)產(chǎn)品與學(xué)術(shù)研究
本文是對(duì)OS Agents進(jìn)行的一次全面綜述。
首先闡明OS Agents的基礎(chǔ),探討了其關(guān)鍵要素,包括環(huán)境、觀察空間和動(dòng)作空間,并概述了理解、規(guī)劃和執(zhí)行操作等核心能力。
接著,審視了構(gòu)建OS Agents的方法,重點(diǎn)關(guān)注OS Agents領(lǐng)域特定的基礎(chǔ)模型和智能體框架的開發(fā)。
隨后,文章詳細(xì)回顧了評(píng)估協(xié)議和基準(zhǔn)測(cè)試,展示了OS Agents在多種任務(wù)中的評(píng)估方式。
最后,文章討論了當(dāng)前的挑戰(zhàn)并指出未來研究的潛在方向,包括安全與隱私、個(gè)性化與自我進(jìn)化。
本文旨在梳理OS Agents研究的現(xiàn)狀,為學(xué)術(shù)研究和工業(yè)開發(fā)提供幫助。
為了進(jìn)一步推動(dòng)該領(lǐng)域的創(chuàng)新,團(tuán)隊(duì)還維護(hù)了一個(gè)開源的GitHub倉庫,包含250+有關(guān)OS Agents的論文以及其他相關(guān)資源,并且仍在持續(xù)更新中。(鏈接在文章末尾~)
△OS Agents基礎(chǔ):關(guān)鍵要素和核心能力
OS Agents基礎(chǔ)
關(guān)鍵要素 (Key Component)
要實(shí)現(xiàn) OS Agents 對(duì)計(jì)算設(shè)備的通用控制,需要通過與操作系統(tǒng)提供的環(huán)境、輸入和輸出接口進(jìn)行交互來完成目標(biāo)。
為滿足這種交互需求,現(xiàn)有的 OS Agents 依賴三個(gè)關(guān)鍵要素:
- 環(huán)境(Environment):智能體操作的系統(tǒng)或平臺(tái),例如電腦、手機(jī)和瀏覽器。環(huán)境是智能體完成任務(wù)的舞臺(tái),支持從簡單的信息檢索到復(fù)雜的多步驟操作。
- 觀察空間(Observation Space):智能體可獲取的所有信息范圍。這些信息諸如屏幕截圖、文本描述或GUI界面結(jié)構(gòu),是智能體理解環(huán)境和任務(wù)的基礎(chǔ)。例如,網(wǎng)頁的 HTML 代碼或手機(jī)的屏幕截圖。
- 動(dòng)作空間(Action Space):智能體與環(huán)境交互的動(dòng)作集合。它定義了可執(zhí)行的操作,如點(diǎn)擊、輸入文本、導(dǎo)航操作甚至調(diào)用外部工具。這使得智能體能夠自動(dòng)化完成任務(wù)并優(yōu)化工作流。
核心能力 (Capability)
在OS Agents的這些關(guān)鍵要素后,如何與操作系統(tǒng)正確、有效的交互,這就需要考驗(yàn)OS Agents自身各方面的能力。
OS Agents必須掌握的核心能力可以總結(jié)為如下三點(diǎn):
- 理解(Understanding):OS Agents 首先需要理解復(fù)雜的操作環(huán)境。無論是 HTML 代碼、屏幕截圖,還是屏幕界面中密集的圖標(biāo)和文本信息,智能體都需要通過理解能力提取關(guān)鍵內(nèi)容,構(gòu)建對(duì)任務(wù)和環(huán)境的全面認(rèn)知。這種理解能力是處理信息檢索等任務(wù)的前提。
- 規(guī)劃(Planning):在任務(wù)執(zhí)行中,OS Agents 的規(guī)劃能力至關(guān)重要。規(guī)劃能力要求OS Agents將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù),并制定操作序列來實(shí)現(xiàn)目標(biāo)。同時(shí),它們最好還要能夠據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃,以適應(yīng)復(fù)雜的操作系統(tǒng)環(huán)境,例如動(dòng)態(tài)網(wǎng)頁和實(shí)時(shí)更新的用戶屏幕界面。
- 操作(Grounding):OS Agents最終需要將規(guī)劃轉(zhuǎn)化為具體的、可執(zhí)行的操作,例如點(diǎn)擊按鈕、輸入文本或調(diào)用 API。這種將規(guī)劃“落地”的能力使得它們能夠在真實(shí)環(huán)境中高效完成任務(wù),并實(shí)現(xiàn)從文字描述到操作執(zhí)行的精準(zhǔn)轉(zhuǎn)換。
OS Agents的構(gòu)建
基礎(chǔ)模型 (Foundation Model)
要構(gòu)建能夠高效執(zhí)行任務(wù)的 OS Agents ,其核心在于開發(fā)適配的基礎(chǔ)模型。
這些模型不僅需要理解復(fù)雜的屏幕界面,還要在多模態(tài)場景下執(zhí)行任務(wù)。
下面是對(duì)基礎(chǔ)模型的架構(gòu)與訓(xùn)練策略的詳細(xì)歸納與總結(jié):
△OS Agents基礎(chǔ)模型:架構(gòu)、預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)
架構(gòu)(Architecture):我們將主要的模型架構(gòu)分為四個(gè)類別:1、Existing LLMs:直接采用開源的大語言模型架構(gòu),將結(jié)構(gòu)化的屏幕界面信息以文本形式輸入給LLMs,從而使得模型可以感知環(huán)境;2、Existing MLLMs:直接采用開源的多模態(tài)大語言模型架構(gòu),整合文本和視覺處理能力,提升對(duì)GUI的理解能力,減少文本化視覺信息而造成的特征損失;3、?Concatenated MLLMs:由LLM與視覺編碼器橋接而成,靈活性更高,可以根據(jù)任務(wù)需求選擇不同的語言模型和視覺模型進(jìn)行組合;4、Modified MLLMs:對(duì)現(xiàn)有 MLLM 架構(gòu)進(jìn)行優(yōu)化調(diào)整,以解決特定場景的挑戰(zhàn),如:添加額外模塊(高分辨率視覺編碼器或圖像分割模塊等),以更細(xì)致地感知和理解屏幕界面細(xì)節(jié)。
預(yù)訓(xùn)練(Pre-training):預(yù)訓(xùn)練為模型構(gòu)建打下基礎(chǔ),通過海量數(shù)據(jù)提升對(duì)屏幕界面的理解能力。數(shù)據(jù)源包括公共數(shù)據(jù)集、合成數(shù)據(jù)集;預(yù)訓(xùn)練任務(wù)覆蓋屏幕定位(Screen Grounding)、屏幕理解(Screen Understanding)與光學(xué)字符識(shí)別(OCR)等。
監(jiān)督微調(diào)(Supervised Fine-tuning):監(jiān)督微調(diào)讓模型更貼合 GUI 場景,是提升OS Agents規(guī)劃能力和執(zhí)行能力的重要手段。例如,通過記錄任務(wù)執(zhí)行軌跡生成訓(xùn)練數(shù)據(jù),或利用 HTML 渲染屏幕界面細(xì)節(jié),提升模型對(duì)不同 GUI 的泛化能力。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning):現(xiàn)階段的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了用(M)LLMs作為特征提取到(M)LLM-as-Agent的范式轉(zhuǎn)變,幫助了OS Agents在動(dòng)態(tài)環(huán)境中交互,根據(jù)獎(jiǎng)勵(lì)反饋,不斷優(yōu)化決策。這種方法不僅提升了智能體的對(duì)齊程度,還為視覺和多模態(tài)智能體提供了更強(qiáng)的泛化能力與任務(wù)適配性。
近期OS Agents基礎(chǔ)模型的相關(guān)論文總結(jié)如下:
△OS Agents基礎(chǔ)模型近期研究工作總結(jié)
智能體框架 (Agent Framework)
OS Agents 除了需要強(qiáng)大的基礎(chǔ)模型,還需要搭配上Agent框架來增強(qiáng)感知、規(guī)劃、記憶和行動(dòng)能力。
這些模塊協(xié)同工作,使 OS Agents 能夠高效應(yīng)對(duì)復(fù)雜的任務(wù)和環(huán)境。
以下是OS Agents框架中四大關(guān)鍵模塊的總結(jié)歸納:
△OS Agents框架:感知、規(guī)劃、記憶和行動(dòng)
感知(Perception):感知作為OS Agents 的“眼睛”,通過輸入的多模態(tài)數(shù)據(jù)(如屏幕截圖、HTML 文檔)觀察環(huán)境。我們將感知細(xì)分為:1、文本感知:將操作系統(tǒng)的狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化文本描述,如 DOM 樹或 HTML 文件;2、屏幕界面感知:使用視覺編碼器對(duì)屏幕界面截圖進(jìn)行理解,通過視覺定位(如按鈕、菜單)和語義連接(如 HTML 標(biāo)記)精準(zhǔn)識(shí)別關(guān)鍵元素。
規(guī)劃(Planning):規(guī)劃作為OS Agents 的“大腦”,負(fù)責(zé)制定任務(wù)的執(zhí)行策略,可以分為:1、全局規(guī)劃:一次生成完整計(jì)劃并執(zhí)行;2、迭代規(guī)劃:隨著環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃,使智能體能夠適應(yīng)實(shí)時(shí)更新的屏幕界面和任務(wù)需求。
記憶(Memory):OS Agents框架的“記憶”部分可以幫助存儲(chǔ)任務(wù)數(shù)據(jù)、操作歷史和環(huán)境狀態(tài)。記憶分為三個(gè)類型:1、內(nèi)部記憶(Internal Memory):存儲(chǔ)操作歷史、屏幕截圖、狀態(tài)數(shù)據(jù)和動(dòng)態(tài)環(huán)境信息,支持任務(wù)執(zhí)行的上下文理解和軌跡優(yōu)化。例如,借助截圖解析屏幕界面布局或根據(jù)歷史操作生成決策;2、外部記憶(External Memory):提供長期知識(shí)支持,例如通過調(diào)用外部工具(如 API)或知識(shí)庫獲取領(lǐng)域背景知識(shí),輔助復(fù)雜任務(wù)的決策;3、特定記憶(Specific Memory):聚焦于特定任務(wù)的知識(shí)和用戶需求,例如存儲(chǔ)子任務(wù)分解方法、用戶偏好或屏幕界面交互功能,提供高度針對(duì)性的操作支持。此外,我們還總結(jié)了多種記憶優(yōu)化策略。
行動(dòng)(Action):我們將OS Agents 的行動(dòng)范圍定義為動(dòng)作空間,這包含操作系統(tǒng)交互的方式,我們將其細(xì)分為三個(gè)類別:1、輸入操作:輸入是 OS Agents 與數(shù)字屏幕界面交互的基礎(chǔ),主要包括鼠標(biāo)操作、觸控操作和鍵盤操作;2、導(dǎo)航操作:使 OS Agents 能夠探索和移動(dòng)于目標(biāo)平臺(tái),獲取執(zhí)行任務(wù)所需的信息;3、擴(kuò)展操作:突破了傳統(tǒng)屏幕界面交互的限制,為智能體提供更靈活的任務(wù)執(zhí)行能力,例如:代碼執(zhí)行與API 調(diào)用。
近期有關(guān)OS Agents框架的論文總結(jié)如下:
△OS Agents框架近期研究工作總結(jié)
OS Agents的評(píng)估
在 OS Agents 的發(fā)展中,科學(xué)的評(píng)估起到了關(guān)鍵作用,幫助開發(fā)者衡量智能體在各種場景中的性能。
下面的表格總結(jié)了近期有關(guān)OS Agents評(píng)估基準(zhǔn)的論文:
△OS Agents Benchmark近期研究工作總結(jié)
評(píng)估協(xié)議 (Evaluation Protocol)
操作系統(tǒng)智能體評(píng)估的核心可總結(jié)為兩個(gè)關(guān)鍵問題:評(píng)估過程應(yīng)如何進(jìn)行與需要對(duì)哪些方面進(jìn)行評(píng)估。
下面本文將圍繞這兩個(gè)問題,闡述操作系統(tǒng)智能體的評(píng)估原則和指標(biāo)。
- 評(píng)估原則(Evaluation Principle):OS Agents 的評(píng)估結(jié)合了多維度的技術(shù)方法,提供對(duì)其能力與局限性的全面洞察,主要分為兩種類型:1、客觀評(píng)估(Objective Evaluation):通過標(biāo)準(zhǔn)化的數(shù)值指標(biāo),評(píng)估智能體在特定任務(wù)中的性能。例如,操作的準(zhǔn)確性、任務(wù)的成功率以及語義匹配的精準(zhǔn)度。這樣的評(píng)估方法能快速且標(biāo)準(zhǔn)化地衡量智能體的性能;2、主觀評(píng)估(Subjective Evaluation):基于人類用戶的主觀感受,評(píng)估智能體的輸出質(zhì)量,包括其相關(guān)性、自然性、連貫性和整體效果。越來越多的研究也利用(M)LLM-as-Judge來進(jìn)行評(píng)估,從而提高效率和一致性。
- 評(píng)估指標(biāo)(Evaluation Metric):評(píng)估指標(biāo)聚焦于 OS Agents 的理解、規(guī)劃和操作能力,衡量其在不同任務(wù)中的表現(xiàn)。主要包括以下兩個(gè)方面:1、步驟級(jí)指標(biāo):評(píng)估智能體在每一步操作中的準(zhǔn)確性,如任務(wù)執(zhí)行中動(dòng)作的語義匹配程度、操作準(zhǔn)確性等;2、任務(wù)級(jí)指標(biāo):聚焦于整個(gè)任務(wù)完成情況,包括任務(wù)的成功率和完成任務(wù)的效率。
評(píng)估基準(zhǔn) (Evaluation Benchmark)
為了全面評(píng)估 OS Agents 的性能,研究者開發(fā)了多種評(píng)估基準(zhǔn),涵蓋不同平臺(tái)、環(huán)境設(shè)置和任務(wù)類別。
這些基準(zhǔn)測(cè)試為衡量智能體的跨平臺(tái)適應(yīng)性、動(dòng)態(tài)任務(wù)執(zhí)行能力提供了科學(xué)依據(jù)。
評(píng)估平臺(tái)(Evaluation Platform):評(píng)估平臺(tái)構(gòu)建了集成的評(píng)估環(huán)境,不同平臺(tái)具有獨(dú)特的挑戰(zhàn)和評(píng)估重點(diǎn),我們將其主要分為三類:移動(dòng)平臺(tái)(Mobile)、桌面平臺(tái)(Desktop)與網(wǎng)頁平臺(tái)(Web)。
基準(zhǔn)設(shè)置(Benchmark Setting):該部分將 OS Agents 的評(píng)估環(huán)境分為兩大類:靜態(tài)(Static)環(huán)境和交互式(Interactive)環(huán)境,并進(jìn)一步將交互式環(huán)境細(xì)分為模擬(Simulated)環(huán)境和真實(shí)世界(Real-World)環(huán)境。靜態(tài)環(huán)境適用于基礎(chǔ)任務(wù)的離線評(píng)估,而交互式環(huán)境(尤其是真實(shí)世界環(huán)境)更能全面測(cè)試OS Agents在復(fù)雜動(dòng)態(tài)場景中的實(shí)際能力。真實(shí)世界環(huán)境強(qiáng)調(diào)泛化能力和動(dòng)態(tài)適應(yīng)性,是未來評(píng)估的重要方向。
任務(wù)(Task):為了全面評(píng)估OS Agents的能力,當(dāng)前的基準(zhǔn)測(cè)試整合了各種專業(yè)化任務(wù),涵蓋從系統(tǒng)級(jí)任務(wù)(如安裝和卸載應(yīng)用程序)到日常應(yīng)用任務(wù)(如發(fā)送電子郵件和在線購物)。主要可以分為以下三類:1、GUI 定位(GUI Grounding):評(píng)估OS Agents將指令轉(zhuǎn)換為屏幕界面操作的能力,即如何在操作系統(tǒng)中與指定的可操作元素交互;2、信息處理(Information Processing):評(píng)估OS Agents高效處理和總結(jié)信息的能力,尤其在動(dòng)態(tài)和復(fù)雜環(huán)境中,從大量數(shù)據(jù)中提取有用信息;3、智能體任務(wù)(Agentic Tasks):評(píng)估OS Agents的核心能力,如規(guī)劃和執(zhí)行復(fù)雜任務(wù)的能力。這類任務(wù)為智能體提供目標(biāo)或指令,要求其在沒有顯式指導(dǎo)的情況下完成任務(wù)。
挑戰(zhàn)與未來
本部分討論了 OS Agents 面臨的主要挑戰(zhàn)及未來發(fā)展的方向,重點(diǎn)聚焦于安全與隱私(Safety & Privacy)以及個(gè)性化與自我進(jìn)化(Personalization & Self-Evolution)兩個(gè)方面。
安全與隱私
安全與隱私是OS Agents開發(fā)中必須重視的領(lǐng)域。
OS Agents 面臨多種攻擊方式,包括間接提示注入攻擊、惡意彈出窗口和對(duì)抗性指令生成,這些威脅可能導(dǎo)致系統(tǒng)執(zhí)行錯(cuò)誤操作或泄露敏感信息。
盡管目前已有適用于LLMs的安全框架,但針對(duì)OS Agents的防御機(jī)制仍顯不足。
當(dāng)前研究主要集中于設(shè)計(jì)專門應(yīng)對(duì)注入攻擊和后門攻擊等特殊威脅的防御方案,急待開發(fā)全面的且可擴(kuò)展防御框架,以提升 OS Agents 的整體安全性和可靠性。
為評(píng)估OS Agents在不同場景下的魯棒性,還引入了一些智能體安全基準(zhǔn)測(cè)試,用于全面測(cè)試和改進(jìn)系統(tǒng)的安全表現(xiàn),例如ST-WebAgentBench[17]和MobileSafetyBench[18]。
個(gè)性化與自我進(jìn)化
個(gè)性化OS Agents需要根據(jù)用戶偏好不斷調(diào)整行為和功能。
多模態(tài)大語言模型正逐步支持理解用戶歷史記錄和動(dòng)態(tài)適應(yīng)用戶需求,OpenAI的Memory功能[19]在這一方向上已經(jīng)取得了一定進(jìn)展。
讓智能體通過用戶交互和任務(wù)執(zhí)行過程持續(xù)學(xué)習(xí)和優(yōu)化,從而提升個(gè)性化程度和性能。
未來將記憶機(jī)制擴(kuò)展到更復(fù)雜的形式,如音頻、視頻、傳感器數(shù)據(jù)等,從而提供更高級(jí)的預(yù)測(cè)能力和決策支持。
同時(shí),支持用戶數(shù)據(jù)驅(qū)動(dòng)的自我優(yōu)化,增強(qiáng)用戶體驗(yàn)。
總結(jié)
多模態(tài)大語言模型的發(fā)展為操作系統(tǒng)智能體(OS Agents)創(chuàng)造了新的機(jī)遇,使得實(shí)現(xiàn)先進(jìn)AI助手的想法更加接近現(xiàn)實(shí)。
本綜述旨在概述OS Agents的基礎(chǔ),包括其關(guān)鍵組成部分和能力。
此外,文章還回顧了構(gòu)建OS Agents的多種方法,特別關(guān)注領(lǐng)域特定的基礎(chǔ)模型和智能體框架。
在評(píng)估協(xié)議和基準(zhǔn)測(cè)試中,團(tuán)隊(duì)成員細(xì)致分析了各類評(píng)估指標(biāo),并且將基準(zhǔn)測(cè)試從環(huán)境、設(shè)定與任務(wù)進(jìn)行分類。
展望未來,團(tuán)隊(duì)明確了需要持續(xù)研究和關(guān)注的挑戰(zhàn),例如安全與隱私、個(gè)性化與自我進(jìn)化等。這些領(lǐng)域是進(jìn)一步研究的重點(diǎn)。
本綜述總結(jié)了該領(lǐng)域的當(dāng)前狀態(tài),并指出了未來工作的潛在方向,旨在為OS Agents的持續(xù)發(fā)展貢獻(xiàn)力量,并增強(qiáng)其在學(xué)術(shù)界和工業(yè)界的應(yīng)用價(jià)值與實(shí)際意義。
如有錯(cuò)誤,歡迎大家批評(píng)指正,作者也表示,期待各位同行朋友交流討論!
論文鏈接:https://github.com/OS-Agent-Survey/OS-Agent-Survey
項(xiàng)目主頁:https://os-agent-survey.github.io/
參考文獻(xiàn):
[1]Apple Inc. Siri – apple, 2024.?https://www.apple.com/siri/
[2]Microsoft Research. Cortana research – microsoft research, 2024.?https://www.microsoft.com/en-us/research/group/cortana-research/
[3]Google. Google assistant, 2024.?https://assistant.google.com/
[4]Google. Gemini – google.?https://gemini.google.com/
[5]OpenAI. Home – openai.?https://openai.com/
[6]xAI. x.ai.?https://x.ai/
[7]01.AI. 01.ai.?https://www.lingyiwanwu.com/
[8]Anthropic. Anthropic.?https://www.anthropic.com/
[9]Chatbot arena: An open platform for evaluating llms by human preference, 2024.?https://arxiv.org/abs/2403.04132
[10]Anthropic. 3.5 models and computer use – anthropic, 2024a.?https://www.anthropic.com/news/3-5-models-and-computer-use
[11]Apple. Apple intelligence, 2024.?https://www.apple.com/apple-intelligence/
[12]Autoglm: Autonomous foundation agents for guis.?https://arxiv.org/abs/2411.00820
[13]Google DeepMind. Project mariner, 2024.?https://deepmind.google/technologies/project-mariner/
[14]Anthropic. Claude model – anthropic, 2024b.?https://www.anthropic.com/claude
[15]Os-atlas: A foundation action model for generalist gui agents.?https://arxiv.org/abs/2410.23218
[16]Os-copilot: Towards generalist computer agents with self-improvement.?https://arxiv.org/abs/2402.07456
[17]St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024.?http://arxiv.org/abs/2410.06703
[18]Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024.?https://arxiv.org/abs/2410.17520^Memory?and new controls for ChatGPT.?https://openai.com/index/memory-and-new-controls-for-chatgpt/
- 打臉!GPT-4o輸出長度8k都勉強(qiáng),陳丹琦團(tuán)隊(duì)新基準(zhǔn)測(cè)試:所有模型輸出都低于標(biāo)稱長度2025-01-15
- 好家伙,海螺直接拍了個(gè)AI版的《教父》2025-01-10
- 2025-01-08
- 用大模型吃瓜更智能了!阿里通義實(shí)驗(yàn)室提出新時(shí)間線總結(jié)框架2025-01-07