長(zhǎng)文本理解
無(wú)一大模型及格! 北大/通研院提出超難基準(zhǔn),專門(mén)評(píng)估長(zhǎng)文本理解生成
像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業(yè)模型,平均只有40%的準(zhǔn)確率。
像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業(yè)模型,平均只有40%的準(zhǔn)確率。