字節(jié)突然開(kāi)源Seed-OSS,512K上下文主流4倍長(zhǎng)度,推理能力刷紀(jì)錄
采用Apache-2.0開(kāi)源協(xié)議
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
字節(jié)跳動(dòng)突發(fā)開(kāi)源大模型,一出手就是360億參數(shù)的Seed-OSS-36B。
這個(gè)Seed-OSS的命名方式,明顯是在呼應(yīng)OpenAI此前發(fā)布的GPT-OSS系列。
與OpenAI的開(kāi)源策略也是一樣,并沒(méi)有直接開(kāi)源核心商業(yè)模型豆包(Doubao),而是基于內(nèi)部技術(shù)打造了一個(gè)專(zhuān)門(mén)面向開(kāi)源社區(qū)的版本。
字節(jié)跳動(dòng)Seed團(tuán)隊(duì)正式在Hugging Face和GitHub上發(fā)布了這個(gè)系列模型,采用Apache-2.0開(kāi)源協(xié)議,可以免費(fèi)用于學(xué)術(shù)研究和商業(yè)部署。
512K上下文窗口,還能靈活控制思考預(yù)算
要說(shuō)Seed-OSS最讓人眼前一亮的特性,那必須是原生512K的超長(zhǎng)上下文。
目前主流的開(kāi)源模型,比如DeepSeek V3.1的上下文窗口是128K,而Seed-OSS直接翻了4倍。
而且這個(gè)512K是在預(yù)訓(xùn)練階段就構(gòu)建好的,不是后期通過(guò)插值等方法硬撐上去的。
這意味著法律文檔審查、長(zhǎng)篇報(bào)告分析、復(fù)雜代碼庫(kù)理解等需要處理海量信息的專(zhuān)業(yè)場(chǎng)景,Seed-OSS都能輕松拿下。
此外,Seed-OSS還引入了“思考預(yù)算”(Thinking Budget)機(jī)制。
通過(guò)設(shè)定一個(gè)token數(shù)量,你就能控制模型思考的深度。比如你設(shè)置512個(gè)token的預(yù)算,模型在推理過(guò)程中會(huì)這樣工作:
復(fù)制
好的,讓我一步步來(lái)解決這個(gè)問(wèn)題。題目說(shuō)的是… 我已經(jīng)使用了129個(gè)token,還剩383個(gè)token可用。 使用冪法則,我們可以… 我已經(jīng)使用了258個(gè)token,還剩254個(gè)token可用。 另外,記住… 我已經(jīng)耗盡了token預(yù)算,現(xiàn)在開(kāi)始給出答案。
對(duì)于簡(jiǎn)單任務(wù),可以設(shè)置較小的預(yù)算讓模型快速響應(yīng);對(duì)于復(fù)雜的數(shù)學(xué)推理或代碼生成,你可以給更多預(yù)算讓它深思熟慮。
字節(jié)跳動(dòng)建議使用512的整數(shù)倍(比如512、1K、2K、4K、8K或16K),因?yàn)槟P驮谶@些區(qū)間上經(jīng)過(guò)了大量訓(xùn)練。
模型架構(gòu)方面,Seed-OSS采用了成熟穩(wěn)定的設(shè)計(jì):
360億參數(shù)的稠密模型(不是MoE),使用了RoPE位置編碼、GQA注意力機(jī)制、RMSNorm歸一化和SwiGLU激活函數(shù)。整個(gè)模型有64層,隱藏層維度5120,詞匯表大小155K。
考慮到合成指令數(shù)據(jù)可能影響后訓(xùn)練研究,字節(jié)Seed團(tuán)隊(duì)提供了兩個(gè)版本的基座模型,
一個(gè)包含合成指令數(shù)據(jù)(性能更強(qiáng)),一個(gè)不包含(更純凈),為研究社區(qū)提供更多選擇。
多項(xiàng)基準(zhǔn)測(cè)試開(kāi)源SOTA
那么這個(gè)模型的實(shí)際表現(xiàn)如何呢?
在知識(shí)理解方面,Seed-OSS-36B-Base在MMLU-Pro上達(dá)到了65.1分,超過(guò)了同等規(guī)模的Qwen2.5-32B-Base的58.5分。在TriviaQA上更是拿下了82.1的高分。
推理能力的BBH基準(zhǔn)測(cè)試得分87.7,直接刷新了開(kāi)源模型的記錄。在數(shù)學(xué)能力上,GSM8K達(dá)到90.8分,MATH的81.7分。
Seed-OSS代碼能力同樣不俗,HumanEval得分76.8,MBPP達(dá)到80.6。
指令微調(diào)版本Seed-OSS-36B-Instruct在AIME24數(shù)學(xué)競(jìng)賽題上達(dá)到了91.7分的成績(jī),僅次于OpenAI的OSS-20B。
并且這些成績(jī)是用僅12T token訓(xùn)練出來(lái)的,相比之下,很多同規(guī)模模型的訓(xùn)練數(shù)據(jù)量都在15T以上。
字節(jié)Seed團(tuán)隊(duì)的開(kāi)源版圖
字節(jié)Seed團(tuán)隊(duì)成立于2023年,定位是“打造業(yè)界最先進(jìn)的AI基礎(chǔ)模型”,研究方向覆蓋大語(yǔ)言模型、多模態(tài)、AI基礎(chǔ)設(shè)施等多個(gè)前沿領(lǐng)域。
過(guò)去一年多時(shí)間里,已經(jīng)陸續(xù)開(kāi)源了多個(gè)有影響力的項(xiàng)目,只不過(guò)多是細(xì)分領(lǐng)域模型,而不是受關(guān)注的基座語(yǔ)言模型。
今年5月,他們發(fā)布了Seed-Coder,一個(gè)8B規(guī)模的代碼生成模型,最大的創(chuàng)新是讓LLM自己管理和篩選訓(xùn)練數(shù)據(jù),大幅提升了代碼生成能力。
緊接著,他們又推出了BAGEL,一個(gè)能同時(shí)處理文本、圖像和視頻的統(tǒng)一多模態(tài)模型,真正實(shí)現(xiàn)了”萬(wàn)物皆可輸入輸出”。
更早之前,他們還發(fā)布了Seed Diffusion,這是一個(gè)基于離散狀態(tài)擴(kuò)散技術(shù)的實(shí)驗(yàn)性語(yǔ)言模型,在代碼生成任務(wù)上實(shí)現(xiàn)了極高的推理速度。
為了支撐這些模型的訓(xùn)練,團(tuán)隊(duì)還開(kāi)源了VeOmni,一個(gè)PyTorch原生的全模態(tài)分布式訓(xùn)練框架。
最近他們還搞了個(gè)Seed LiveInterpret端到端的同聲傳譯模型,不僅翻譯準(zhǔn)確率高,延遲低,還能復(fù)刻說(shuō)話人的聲音特征。
隨著Seed-OSS的開(kāi)源,國(guó)產(chǎn)開(kāi)源Base模型又添一員猛將。
GitHub:
https://github.com/ByteDance-Seed/seed-oss
HuggingFace:
https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語(yǔ)言難題,2300種語(yǔ)言數(shù)字化計(jì)劃正在推進(jìn)2025-08-18
- AMD蘇姿豐公開(kāi)懟扎克伯格!反對(duì)1億年薪挖人,使命感比鈔票更重要2025-08-18
- 倒反天罡!AI新貴345億美元報(bào)價(jià)谷歌瀏覽器,此前碰瓷Tiktok未果2025-08-13