陳丹琦團(tuán)隊(duì)圖表解讀新基準(zhǔn):新王Claude3.5剛及格,但已是模型最強(qiáng)推理表現(xiàn)
比人類差了1/4
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
Claude 3.5 Sonnet的圖表推理能力,比GPT-4o高出了27.8%。
針對(duì)多模態(tài)大模型在圖表任務(wù)上的表現(xiàn),陳丹琦團(tuán)隊(duì)提出了新的測(cè)試基準(zhǔn)。
新Benchmark比以往更有區(qū)分度,也讓一眾傳統(tǒng)測(cè)試中的高分模型暴露出了真實(shí)能力。
該數(shù)據(jù)集名為CharXiv,內(nèi)容全部選自arXiv論文中的真實(shí)圖表,共計(jì)2323張。
相比此前的FigureQA等測(cè)試基準(zhǔn),CharXiv涵蓋的任務(wù)類型更加廣泛,而且不按套路出牌,難度大幅增加。
為了宣傳這套新Benchmark,研究團(tuán)隊(duì)還寫出了一首洗腦神曲,并制作了視頻宣傳片。
這段魔性的宣傳片,讓有些網(wǎng)友表示已經(jīng)被成功“洗腦”,腦海中充滿了(歌詞中的)“2323張圖表”。
導(dǎo)師陳丹琦也感到印象十分深刻,直言這是自己見(jiàn)過(guò)最fancy的視頻。
那么,CharXiv究竟新在哪,又難在哪呢?
來(lái)自學(xué)術(shù)論文的圖表測(cè)試集
團(tuán)隊(duì)指出,過(guò)去的表格測(cè)試標(biāo)準(zhǔn)太過(guò)簡(jiǎn)單,而且不能反映模型的真實(shí)水平。
比如FigureQA、DVQA 和ChartQA的子集,只要稍作簡(jiǎn)單修改,模型的成績(jī)就能下降超過(guò)1/3。
究其原因,作者認(rèn)為是之前的數(shù)據(jù)集中圖表都是由程序合成,問(wèn)答也高度模板化。
于是,研究團(tuán)隊(duì)提出了CharXiv,由人類專家從arXiv論文中精心選擇了2323個(gè)真實(shí)圖表。
圖表的類型也更加豐富,提出的問(wèn)題也避免了套路化的問(wèn)題。
根據(jù)重點(diǎn)考察能力的不同,作者將測(cè)試題目分成了兩類——描述性問(wèn)題和推理性問(wèn)題。
兩類問(wèn)題的比例為4:1,即每張圖表配有4個(gè)描述性問(wèn)題和1個(gè)推理性問(wèn)題。
其中描述性問(wèn)題包括信息提取(Information extraction)、列舉(Enumeration)、計(jì)數(shù)(Counting)、模式識(shí)別(Pattern recognition)等等。
這當(dāng)中,模式識(shí)別指的是要求模型識(shí)別圖表中數(shù)據(jù)的趨勢(shì)和分布模式,如線條是否相交、數(shù)據(jù)是遞增還是遞減等。
另外還有較難的組合型(Compositionality)任務(wù),模型需要綜合多個(gè)視覺(jué)元素的信息回答問(wèn)題,體現(xiàn)圖表信息的組合理解。
比如這道題目就是一道組合型的描述類問(wèn)題,它需要在識(shí)別清楚坐標(biāo)軸的同時(shí),完成計(jì)數(shù)的任務(wù):
在當(dāng)前的圖表中,所有坐標(biāo)軸中一共有多少明確標(biāo)記的刻度?(這里問(wèn)的是標(biāo)記的數(shù)量,不是求和)
推理性問(wèn)題則根據(jù)答案出現(xiàn)的方式又分為了四個(gè)子類:
- Text-in-chart:?jiǎn)栴}的答案是圖表中出現(xiàn)的文本,如圖例標(biāo)簽、離散刻度標(biāo)簽等。
- Text-in-general:?jiǎn)栴}的答案是一個(gè)易于驗(yàn)證的文本短語(yǔ),但不一定顯式出現(xiàn)在圖表中。
- Number-in-chart:?jiǎn)栴}的答案是圖表中給出的一個(gè)數(shù)值,,如坐標(biāo)軸刻度值。
- Number-in-general:?jiǎn)栴}的答案是一個(gè)精確到特定小數(shù)位數(shù)的數(shù)值,但可能需要通過(guò)閱讀和推理才能得出,而不一定直接出現(xiàn)在圖表中。
舉個(gè)例子,下面的問(wèn)題要求模型對(duì)表格中各列的數(shù)值進(jìn)行求和,然后比較后給出和最小的一列對(duì)應(yīng)的標(biāo)簽,這就是一項(xiàng)推理型任務(wù)。
利用這套數(shù)據(jù)集,作者在零樣本的條件下評(píng)估了一些知名的開(kāi)源和閉源模型。
模型依然不擅長(zhǎng)推理
在推理類問(wèn)題上,作者發(fā)現(xiàn)所有模型的表現(xiàn)都不是很理想。
表現(xiàn)最好的是真人,模型當(dāng)中則是Claude 3.5 Sonnet,不過(guò)也僅僅及格,和人相比還是差了四分之一,成績(jī)超過(guò)40的模型一共也只有三個(gè)。
緊隨其后的是GPT-4o、Gemini 1.5 Pro和Claude 3家族,有意思的是,Claude 3的“超大杯”O(jiān)pus,表現(xiàn)還不如小一些的Sonnet和Haiku。
開(kāi)源模型中,表現(xiàn)最好的是微軟的“小”模型Phi-3,參數(shù)量一共只有4B,成績(jī)卻躋身到了Claude 3家族的中間。
在描述類任務(wù)當(dāng)中,表現(xiàn)最好的依然是人類,但模型和人類的差距小了,表現(xiàn)最好的GPT-4o和人類只差了不到10%。
不過(guò)開(kāi)源模型的表現(xiàn)就不那么好了,分?jǐn)?shù)最高的Phi-3才剛剛及格。
另外,其中的組合型問(wèn)題(COMP)任務(wù),對(duì)于模型來(lái)說(shuō)也依舊是難點(diǎn),沒(méi)有任何一個(gè)模型得分超過(guò)60,而人類的表現(xiàn)是大于90的。
例如,數(shù)出x軸和y軸上的刻度標(biāo)簽數(shù)量,對(duì)于人來(lái)說(shuō)是十分簡(jiǎn)單的任務(wù),但測(cè)試下來(lái),20個(gè)模型在該任務(wù)中的準(zhǔn)確率無(wú)一達(dá)到10%。
而且,隨著子圖數(shù)量的增加,模型的描述能力也會(huì)下降。當(dāng)有6個(gè)以上子圖時(shí),商業(yè)模型的成績(jī)會(huì)下降10-30%,開(kāi)源模型對(duì)子圖的處理則更加困難,性能下降比例達(dá)到了30-50%。
經(jīng)過(guò)綜合比對(duì),作者發(fā)具備良好描述能力是推理能力的前提——推理能力強(qiáng)的模型一般描述能力也強(qiáng),但描述強(qiáng)的模型推理能力不一定強(qiáng)。當(dāng)模型無(wú)法準(zhǔn)確描述圖表時(shí),即使使用思維鏈(CoT)推理,成績(jī)也不會(huì)提升。
論文地址:
https://arxiv.org/abs/2406.18521