DeepSeek第五彈炸裂收官!開源全新并行文件系統(tǒng),榨干SSD全部帶寬
180節(jié)點集群中的聚合讀取吞吐量為6.6TiB/s
克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeek開源周,今日正式收官!
內容依舊驚喜且重磅,直接公開了V3和R1訓練推理過程中用到的文件系統(tǒng)。
具體來說,包括以下兩項內容:
- Fire-Flyer文件系統(tǒng)(簡稱3FS,第三個F代表File),一種利用現(xiàn)代SSD和RDMA網絡的全部帶寬的并行文件系統(tǒng);
- Smallpond,基于3FS和DuckDB構建的輕量級數(shù)據處理框架。
劃重點就是,3FS可以把固態(tài)硬盤的帶寬性能利用到極致,表現(xiàn)出了驚人的速度:
- 180節(jié)點集群中的聚合讀取吞吐量為6.6TiB/s;
- 25節(jié)點集群中GraySort基準測試的吞吐量為3.66TiB/分鐘;
- 每個客戶端節(jié)點的KVCache查找峰值吞吐量超過40GiB/s。
V3和R1中訓練數(shù)據預處理、數(shù)據集加載、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗馬功勞。
網友們表示,3FS和Smallpond為AI數(shù)據處理設定了新基準,將改變數(shù)據處理的游戲規(guī)則。
對于AI來說,這就像從自行車升級到了高鐵。
將SSD和RDMA性能榨干
根據DeepSeek團隊介紹,3FS是一種高性能的分布式文件系統(tǒng),面對的就是AI訓練和推理工作負載的挑戰(zhàn)。
它利用現(xiàn)代SSD和RDMA網絡來提供共享存儲層,從而簡化分布式應用程序的開發(fā)。
SSD就是固態(tài)硬盤,而RDMA(遠程直接訪問,remote direct memory access)是一種直接存儲器訪問技術。
它可以在沒有雙方操作系統(tǒng)介入的情況下,將數(shù)據直接從一臺計算機的內存?zhèn)鬏數(shù)搅硪慌_計算機,也不需要中央處理器、CPU緩存或上下文交換參與。
特點就是高通量、低延遲,尤其適合在大規(guī)模并行計算機集群中使用。
具體到3FS,具有以下特點:
- 分布式架構:結合了數(shù)千個SSD的吞吐量和數(shù)百個存儲節(jié)點的網絡帶寬,使應用程序能夠以不受位置影響的方式訪問存儲資源。
- 強一致性實現(xiàn)帶:分配查詢的鏈式復制?(CRAQ)?以實現(xiàn)強一致性,使應用程序代碼簡單易懂。
- 文件接口:文件接口眾所周知且隨處可用,無需學習新的存儲 API。
并且,3FS能夠適用于大模型訓練推理和過程中不同類型的應用負載:
- 數(shù)據準備:將數(shù)據分析pipeline的輸出重組成分層目錄結構,并有效管理大量中間輸出。
- 數(shù)據加載器:通過跨計算節(jié)點隨機訪問訓練樣本,消除了預取或混洗數(shù)據集的需要。
- Checkpoints:支持大規(guī)模訓練的高吞吐量并行Checkpoints。
- 用于推理的KV緩存:為基于DRAM的緩存提供了一種經濟高效的替代方案,可提供高吞吐量和更大的容量。
在大型3FS集群上的讀取測試中,實現(xiàn)了驚人的高吞吐量。
該集群由180個存儲節(jié)點組成,每個存儲節(jié)點配備2×200Gbps InfiniBand網卡和16個14TiB NVMe SSD。
大約500+個客戶端節(jié)點用于讀壓測,每個客戶端節(jié)點配置1x200Gbps InfiniBand網卡。
在訓練作業(yè)的背景流量下,最終聚合讀吞吐達到約6.6TiB/s。
DeepSeek還用GraySort基準測試評估了基于3FS構建的smallpond框架,該基準測試可測量大規(guī)模數(shù)據集的排序性能。
測試分為兩個階段,先用鍵的前綴位通過shuffle對數(shù)據進行分區(qū),然后進行分區(qū)內排序。兩個階段既需要從3FS讀取,也需要向3FS寫入數(shù)據。
測試集群包含25個存儲節(jié)點(2個NUMA域/節(jié)點、1個存儲服務/NUMA、2×400Gbps NIC/節(jié)點)和50個計算節(jié)點(2個NUMA域、192個物理核心、2.2 TiB RAM 和1×200 Gbps NIC/節(jié)點)。
最終對8192個分區(qū)中110.5TiB數(shù)據進行排序,耗時30分14秒,平均吞吐量為3.66TiB/分鐘。
另外,KV緩存客戶端的讀取吞吐量,峰值也達到了40GiB/s。
One More Thing
回顧DeepSeek這五天開源的內容,幾乎都和AI Infra相關:
- 第一天,FlashMLA架構,DeepSeek獨創(chuàng)MLA架構的高性能版本,直接突破H800計算上限;
- 第二天,DeepEP, 第一個用于MoE模型訓練和推理的開源EP通信庫,提供高吞吐量和低延遲的all-to-all GPU內核;
- 第三天,DeepGEMM,一個通用矩陣乘法庫,僅300行代碼,是V3/R1訓練推理關鍵秘籍;
- 第四天,連開三源,創(chuàng)新的雙向流水線并行算法DualPipe、用于MoE的負載均衡算法EPLB,以及訓練和推理框架的性能分析數(shù)據;
- 第五天,3FS和Smallpond,高效的分布式文件系統(tǒng)和以之為基礎的數(shù)據處理框架。
并且主打的就是極度壓縮成本,降低消耗的同時將各種硬件的性能全部發(fā)揮到極致。
而另外一邊,有網友已經在期待V4和R2的上線了。
至此,DeepSeek開源周的連載也要告一段落了,但DeepSeek后續(xù)動作依然值得持續(xù)關注。
感興趣的話,歡迎掃碼備注「DeepSeek-職業(yè)/姓名」加入群聊,一起關注DeepSeek更多動態(tài)!
項目地址:
https://github.com/deepseek-ai/3FS
參考鏈接:
https://x.com/deepseek_ai/status/1895279409185390655
- DeepSeek一句話讓國產芯片集體暴漲!背后的UE8M0 FP8到底是個啥2025-08-22
- GPT-5 Pro獨立做數(shù)學研究!讀論文后給出更精確邊界,OpenAI總裁:這是生命跡象2025-08-21
- 黃仁勛子女成長路徑曝光:一個學烘焙一個開酒吧,從基層做到英偉達高管2025-08-12
- 讓64張卡像一張卡!浪潮信息發(fā)布新一代AI超節(jié)點,支持四大國產開源模型同時運行2025-08-11