商湯AI Agent把打工玩明白了
把工具按順序擺好都是小case
西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
家人們,商湯國(guó)產(chǎn)大模型也能把工具用明白了!
處理任務(wù)時(shí),把要用的工具按順序一一擺好都是小case。
還能把任務(wù)拆成子任務(wù),知道每個(gè)子任務(wù)要用啥工具。
你沒(méi)聽(tīng)錯(cuò),為探究LLM的任務(wù)規(guī)劃和工具使用能力,商湯最近為基于LLM的AI智能體量身打造了一個(gè)框架。
結(jié)果發(fā)現(xiàn)AI處理任務(wù)時(shí),引入統(tǒng)一工具-子任務(wù)生成策略,性能還能再次得到顯著提高。
網(wǎng)友直接被驚掉下巴:
自然語(yǔ)言處理領(lǐng)域振奮人心的進(jìn)展!大語(yǔ)言模型正在徹底改變現(xiàn)實(shí)世界的應(yīng)用。

為AI智能體量身定制一個(gè)框架
此前在自然語(yǔ)言處理領(lǐng)域,人們?cè)诳碅I解決復(fù)雜任務(wù)時(shí)更多關(guān)注任務(wù)理解,而缺乏對(duì)工具使用和任務(wù)規(guī)劃能力的研究。
這不,為了彌補(bǔ)這一缺陷,商湯的研究人員提出了一種針對(duì)基于LLM的AI智能體的任務(wù)規(guī)劃和工具使用方法,并設(shè)計(jì)了兩種不同類(lèi)型的智能體來(lái)執(zhí)行推理過(guò)程。

具體來(lái)說(shuō),研究人員設(shè)計(jì)了一個(gè)包含六個(gè)組件的AI智能體框架。
六個(gè)組件分別是:任務(wù)指令(Task Instruction)、設(shè)計(jì)提示(Designed Prompt)、大語(yǔ)言模型(LLM)、工具集(Tool Set)、中間輸出(Intermediate Output)和最終答案(Final Answer)。
其中,任務(wù)指令是智能體的顯式輸入,可以來(lái)自系統(tǒng)的人類(lèi)用戶;設(shè)計(jì)提示是一種額外的輸入形式,用于引導(dǎo)基于LLM的AI智能體生成適當(dāng)?shù)妮敵觥?/p>

△框架演示
要知道,要想增強(qiáng)或取代實(shí)際應(yīng)用中的人工決策,除了任務(wù)規(guī)劃和使用工具的能力,AI智能體通常還需要感知能力、學(xué)習(xí)/反思/記憶能力、總結(jié)能力。
在這里研究人員總結(jié)了包括思維鏈、向量數(shù)據(jù)庫(kù)等方法,來(lái)解決這一問(wèn)題:

但實(shí)際上,眾多能力中任務(wù)計(jì)劃和工具使用(簡(jiǎn)稱(chēng)TPTU)才是核心能力。
所以,研究人員專(zhuān)注于這兩個(gè)關(guān)鍵能力,設(shè)計(jì)了兩種不同類(lèi)型的AI智能體:
一步智能體和順序智能體。

△一步智能體和順序智能體的工作流程,用于評(píng)估LLM的任務(wù)規(guī)劃和工具使用能力。
其中,一步智能體(TPTU-OA)可以從全局角度解釋原始問(wèn)題,充分利用模型的整體理解能力,“一次到位”映射出所有子任務(wù)的規(guī)劃步驟。
而順序智能體(TPTU-SA),側(cè)重處理當(dāng)前的子任務(wù),完成后再請(qǐng)求下一個(gè)子任務(wù)。可以使模型保持清晰和集中式的關(guān)注,允許連續(xù)的反饋和進(jìn)步。
這兩種智能體分別評(píng)估LLM的整體規(guī)劃與逐步推理的能力,可以從不同側(cè)面考察LLM處理復(fù)雜任務(wù)的效果。
下一步,研究人員使用不同的LLM實(shí)例化了這個(gè)框架,并在典型任務(wù)上評(píng)估了其任務(wù)規(guī)劃和工具使用能力。
一起康康效果如何。
AI用工具竟然如此順溜
先來(lái)看研究人員準(zhǔn)備的工具,足足有12種: SQL生成器、Python生成器、天氣查詢(xún)工具、圖像生成器、文本提取器、翻譯器、必應(yīng)搜索器、Shell生成器、Java生成器、Wikipedia搜索器、辦公軟件、電影播放器。
重點(diǎn)評(píng)估SQL生成器和Python生成器兩種:
- SQL生成器:給定一個(gè)輸入問(wèn)題和一個(gè)數(shù)據(jù)庫(kù),創(chuàng)建一個(gè)語(yǔ)法正確的SQLite查詢(xún)語(yǔ)句。
- Python生成器:給定一個(gè)輸入問(wèn)題和一些信息,生成一個(gè)語(yǔ)法正確的Python代碼。
測(cè)試數(shù)據(jù)集,則來(lái)源于事先準(zhǔn)備的120個(gè)問(wèn)題-答案對(duì)。
被評(píng)估的LLM包括ChatGPT、Claude、上海人工智能實(shí)驗(yàn)室和商湯聯(lián)合研發(fā)的InternLM等:

接下來(lái)就是正式評(píng)估環(huán)節(jié)。
任務(wù)規(guī)劃能力評(píng)估
在一步智能體中,研究人員設(shè)計(jì)了特定的提示,首先評(píng)估了基于LLM的AI智能體的工具使用順序規(guī)劃能力。
在這個(gè)提示中,智能體被要求從預(yù)定義的工具集中選擇工具,并嚴(yán)格遵守給定的格式,理解演示以從中學(xué)習(xí)。研究人員通過(guò)將這些提示輸入到評(píng)估中,得到了工具規(guī)劃的準(zhǔn)確率。

結(jié)果表明,Ziya和ChatGLM模型在生成正確格式的列表方面存在困難。其它模型主要在生成正確順序的工具或偶爾遺漏必要工具方面存在挑戰(zhàn)。總體而言,解析列表格式的問(wèn)題通??梢院雎圆挥?jì)。
接著,他們?cè)u(píng)估智能體不僅能夠規(guī)劃工具的順序,還能夠規(guī)劃相應(yīng)的子任務(wù)描述的能力。
研究人員設(shè)計(jì)提示,要求在生成工具順序后,對(duì)每個(gè)工具生成對(duì)應(yīng)的子任務(wù)描述。
結(jié)果各個(gè)LLM的正確率顯著下降,ChatGPT從100%下降到55%,Claude從100%下降到15%,InternLM超過(guò)Claude,僅次于ChatGPT。

研究人員認(rèn)為整體生成工具序列和子任務(wù)描述雖有效,但存在難以跟蹤調(diào)試錯(cuò)誤、工具子任務(wù)匹配問(wèn)題等困難。
為改進(jìn)這一問(wèn)題,研究人員進(jìn)行了專(zhuān)門(mén)的規(guī)劃評(píng)估,要求智能體在復(fù)雜問(wèn)題拆解中生成多個(gè)形式為{工具:子任務(wù)描述}的鍵值對(duì)序列。

結(jié)果各LLM正確率顯著提高,ChatGPT從55%上升到75%,Claude從15%上升到90%。
研究人員表示這是因?yàn)楣ぞ吆妥尤蝿?wù)統(tǒng)一生成,確保了二者的匹配,避免了獨(dú)立生成的問(wèn)題。
為了進(jìn)一步評(píng)估,他們擴(kuò)展了工具集,添加了其他無(wú)關(guān)的工具,結(jié)果穩(wěn)定,說(shuō)明提示設(shè)計(jì)有效,LLM能識(shí)別相關(guān)工具。
而在順序智能體中,研究人員設(shè)計(jì)了可以遞歸生成工具-子任務(wù)對(duì)的提示。

各LLM正確率與一步智能體相比普遍提高,ChatGPT從75%上升到80%,Claude從90%上升到100%,InternLM也有65%。
工具使用能力評(píng)估
在工具使用能力評(píng)估方面,研究人員首先評(píng)估了單一工具使用對(duì)SQL生成和數(shù)學(xué)代碼生成的有效性。
SQL生成綜合評(píng)估結(jié)果如下:

不同LLM的SQL生成能力截然不同,部分模型適合逐步指導(dǎo)。
數(shù)學(xué)代碼生成方面,國(guó)產(chǎn)大模型InternLM表現(xiàn)最優(yōu):

然后研究人員還進(jìn)一步評(píng)估了一步智能體、順序智能體多工具的使用。
由于基于用戶界面的LLM缺乏調(diào)用外部工具的能力,所以這部分僅使用四個(gè)基于API的LLM來(lái)做評(píng)估:ChatGPT,Ziya,Chinese-Alpaca和InternLM

在一步智能體評(píng)估中,ChatGPT得分50%,明顯優(yōu)于其它模型,InternLM為15%,而Ziya和China-Alpaca都沒(méi)有成功完成任何任務(wù)。
在順序智能體評(píng)估中,ChatGPT保持了領(lǐng)先地位,性能略有提高,達(dá)到55%。InternLM也表現(xiàn)出更好的表現(xiàn),得分為20%。
總之,基于LLM的AI智能體在任務(wù)規(guī)劃和工具使用方面具備一定的能力,并且通過(guò)改進(jìn)生成策略可以顯著提高智能體的性能。
論文傳送門(mén):https://arxiv.org/abs/2308.03427
- 多人有聲視頻一體化生成!用百度最新AI生成營(yíng)銷(xiāo)視頻,現(xiàn)在1.4元/5秒2025-08-22
- 馬斯克一覺(jué)醒來(lái),Space X在京開(kāi)賣(mài)了2025-08-21
- 離譜!現(xiàn)在的Agent都卷成100個(gè)成團(tuán)了?3分鐘并行干完5個(gè)復(fù)雜任務(wù),還能隨時(shí)改需求2025-08-18
- 國(guó)家級(jí)AI創(chuàng)新應(yīng)用賽事殺瘋了!超200萬(wàn)元獎(jiǎng)金池+全場(chǎng)景賽道,沖線團(tuán)隊(duì)速來(lái)2025-08-15