大模型評(píng)測(cè)
大模型結(jié)構(gòu)化推理優(yōu)勢(shì)難復(fù)制到垂直領(lǐng)域!最新法律AI評(píng)估標(biāo)準(zhǔn)來了,抱抱臉評(píng)測(cè)集趨勢(shì)第一
雖然LLM在推理類任務(wù)上進(jìn)展顯著,但在更為復(fù)雜與微妙的法律領(lǐng)域,這類模型的實(shí)際表現(xiàn)仍然存在很大的未知和諸多疑問
100+大模型綜測(cè)結(jié)果出爐!智源發(fā)布FlagEval“百?!痹u(píng)測(cè)結(jié)果,覆蓋文本語音圖片視頻多種模態(tài)
還有四大專項(xiàng)評(píng)測(cè)榜單,多維度探索模型能力邊界與應(yīng)用潛能
國內(nèi)外140+大模型、8萬+考題測(cè)評(píng)結(jié)果出爐!智源評(píng)測(cè)體系出品
國產(chǎn)大模型更懂中文用戶
全面的中文大語言模型評(píng)測(cè)來啦!香港中文大學(xué)研究團(tuán)隊(duì)發(fā)布
已被EMNLP 2023 System Demonstrations 錄取