大模型基準
27個大模型混戰(zhàn)電商領(lǐng)域,DeepSeek-R1&V3仍是最強
隨著大模型在電商領(lǐng)域的廣泛應(yīng)用,如何精準評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。
多模態(tài)長文檔新基準來了!20多項任務(wù)覆蓋理解推理定位,GPT-4o也就剛及格
主打多模態(tài)、長上下文
突破短視頻局限!MMBench 團隊構(gòu)建中長視頻開放問答評測基準,全面評估多模態(tài)大模型視頻理解能力
來自浙江大學(xué)聯(lián)合上海人工智能實驗室,上海交通大學(xué)和香港中文大學(xué)