天翼云CPU實例部署DeepSeek-R1模型最佳實踐
單路CPU即可運行
文章來源:天翼云網站
量子位 | 公眾號 QbitAI
本文介紹了英特爾?至強?處理器在AI推理領域的優(yōu)勢,如何使用一鍵部署的鏡像進行純CPU環(huán)境下基于AMX加速后的DeepSeek-R1 7B蒸餾模型推理,以及純CPU環(huán)境下部署DeepSeek-R1 671B滿血版模型實踐。
大模型因其參數規(guī)模龐大、結構復雜,通常需要強大的計算資源來支持其推理過程,這使得算力成為大模型應用的核心要素。隨著DeepSeek-R1模型的問世,各行各業(yè)紛紛展開了關于如何接入大模型能力的廣泛調研與探索,市場對大模型推理算力的需求呈現出爆發(fā)式增長的趨勢。
例如在醫(yī)療、金融、零售等領域,企業(yè)迫切希望通過接入DeepSeek大模型來提升決策效率和業(yè)務能力,從而推動行業(yè)的創(chuàng)新發(fā)展。在這一背景下,算力的供給和優(yōu)化成為推動大模型落地應用的重要因素。
近年來,CPU制程和架構的提升以及英特爾?高級矩陣擴展AMX(Advanced Matrix Extensions)加速器的面世帶來了算力的快速提升。英特爾對大模型推理等多個AI領域持續(xù)深入研究,提供全方位的AI軟件支持,兼容主流AI軟件且提供多種軟件方式提升CPU的AI性能。目前,已有充分的數據顯示CPU完全可以用于大模型推理場景。
CPU適用于以下大模型推理場景:
- 場景1: 大模型推理需要的內存超過了單塊GPU的顯存容量,需要多塊或更高配GPU卡,采用CPU方案,可以降低成本;
- 場景2: 應用請求量小,GPU利用率低,采用CPU推理,資源劃分的粒度更小,可有效降低起建成本;
- 場景3: GPU資源緊缺,CPU更容易獲取,且可以勝任大模型推理。
天翼云EMR實例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實踐
本節(jié)內容主要介紹如何在天翼云EMR實例上,基于Intel? xFasterTransformer加速庫和vllm推理引擎完成模型部署,并展示相關性能指標。
服務部署
為了方便用戶使用,天翼云聯合英特爾制作了一鍵部署的云主機鏡像,內置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫以及open-webui前端可視環(huán)境。您可在天翼云控制臺選擇下列資源池和鏡像,開通云主機進行體驗。

完成云主機開通后,推理服務會在5分鐘內自動啟動,您無需進行任何其他操作。
注:如需在云主機外訪問服務,您需要綁定彈性IP,并在安全組內放行22/3000/8000端口。
模型使用
open-webui前端使用
鏡像已內置open-webui,并已完成和vllm的連接配置,可直接通過以下地址進行訪問:
http://[彈性IP]:3000/
注:1.首次打開頁面時,您需要先完成管理員注冊,以進行后續(xù)的用戶管理。注冊數據均保存在云實例的/root/volume/open-webui目錄下。
2.如果首次打開對話頁面時沒有模型可供選擇, 請您稍等幾分鐘讓模型完成加載即可。

vllm api調用
鏡像內置vllm服務可直接通過如下地址訪問:
# 根路徑
http://[彈性IP]:8000/
# 查詢現有模型
http://[彈性IP]:8000/v1/models
# 其他api接口參閱vllm文檔
注:vllm服務配置有API_KEY,您可在云實例的/root/recreate_container.sh文件開頭查看到當前值,并可進行修改以確保服務安全。
性能指標
借助于英特爾AMX的加速能力,本推理服務能夠取得顯著的性能提升,天翼云完成測試并給出參考指標如下:
基本參數
vcpu數:24(物理核12)
內存:64GB
硬盤:60G 通用型SSD
模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入token個數:30-60
輸出token個數:256
性能數據
平均token生成速率:

首token時延:

在天翼云c8e系列24vcpu云主機上,啟用AMX加速能力后,DeepSeek 7B蒸餾模型(BF16)推理速度能夠超越9token/s,滿足日常使用需求。
基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B實踐
性能指標
DeepSeek R1 671B 滿血版模型以其卓越的性能,為用戶帶來了極致的效果體驗,不過其部署成本也不容小覷。若采用傳統(tǒng)的 GPU 部署方式,需要8-16張 GPU 才能提供足夠的支持,這無疑大幅增加了硬件購置、能耗以及維護等方面的成本。
在這樣的背景下,天翼云基于英特爾?提供的至強?6處理器服務器進行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試,測試結果如下:
1-instance 1-socket:
平均吞吐性能9.7~10 token/s
2-instance 1-socket:
平均7.32 token/s和7.38token/s, 共14.7token/s
從上面測試數據可以看到,采用單實例單socket部署下,DeepSeek R1 671B滿血版模型可達到平均9.7~10 token/s的吞吐量,而在雙實例部署模式中,總體吞吐量提升至14.7 token/s。單顆CPU系統(tǒng)的吞吐性能可以達到普通用戶正常使用的需要。
英特爾?至強?6處理器簡介
英特爾?至強?CPU 為 DeepSeek R1 671B 模型的部署提供了一個極具競爭力的方案。英特爾?至強?CPU 具備支持 T 級超大內存的能力,這使得它在權重存儲與加載方面表現高效。對于像 DeepSeek R1 671B 這樣的超大模型,其所需的顯存容量在多卡 GPU 配置下才能滿足,而英特爾?至強?CPU 能夠憑借其強大的內存支持能力,為該模型提供良好的運行環(huán)境。
此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)結構,通過參數稀疏化的方式,使得在單 token 推理時僅需激活少量專家參數。這種特性顯著降低了推理過程中的算力要求,與 CPU 的計算特點相契合,使得模型在 CPU 系統(tǒng)上的運行更加高效。這意味著在英特爾?至強?CPU 上部署 DeepSeek R1 671B 模型,不僅能夠充分發(fā)揮模型的性能優(yōu)勢,還能有效降低部署成本,避免了對大量 GPU 的依賴。
如需復現以上性能測試結果,請參看附錄2
總結
通過本次實踐,無論是在天翼云EMR云實例上結合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型,還是基于英特爾?至強?6處理器部署滿血版DeepSeek-R1 671B模型,均驗證了CPU系統(tǒng)在DeepSeek大模型推理上的可行性和符合業(yè)界普遍要求的性能表現。CPU系統(tǒng)不僅能夠靈活應對不同規(guī)模的模型需求,無論是輕量化蒸餾模型還是全功能滿血模型,都能高效滿足用戶場景需求,提供了一種低成本、經濟高效的解決方案。
附錄1英特爾?至強?可擴展處理器與AI加速技術
最新英特爾?至強?可擴展處理器產品
英特爾第五代?至強?可擴展處理器(代號 Emerald Rapids)——為AI加速而生
第五代英特爾?至強?處理器以專為AI工作負載量身定制的設計理念,實現了核心架構和內存系統(tǒng)的雙重飛躍。其64核心設計搭配高達320MB的三級緩存(每核心由1.875MB提升至5MB),相較上代緩存容量實現近三倍增長,為大規(guī)模并行AI推理提供充裕的本地數據存儲空間。與此同時,處理器支持DDR5-5600高速內存,單路最大4TB的容量保證了大數據處理時的帶寬和延遲優(yōu)勢?;谶@些硬件提升,Emerald Rapids整體性能較上一代提升21%,AI推理性能平均提升42%,在大語言模型推理場景中可實現最高1.5倍的性能加速,同時大幅降低總擁有成本達77%。
英特爾?至強?6處理器(代號 GNR Granite Rapids)——引領CPU AI算力革新
全新GNR處理器專為應對人工智能、數據分析及科學計算等計算密集型任務而設計。該產品在內核數量、內存帶寬及專用AI加速器方面均實現重大突破:
- 核心與性能:每CPU配備多達128個性能核心,單路核心數較上一代翻倍,同時平均單核性能提升達1.2倍、每瓦性能提升1.6倍,進一步強化了CPU在大模型推理中的獨立處理能力;
- AI加速功能:內置英特爾?高級矩陣擴展(AMX)新增對FP16數據類型的支持,使得生成式AI和傳統(tǒng)深度學習推理任務均能獲得顯著加速;
- 內存與I/O突破:支持DDR5-6400內存及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術,有效將內存帶寬提升至上一代的2.3倍;同時,高達504MB的三級緩存和低延遲設計確保數據能夠更快加載,為復雜模型訓練和推理縮短響應時間。
英特爾?至強?6處理器不僅通過更多的核心和更高的單線程性能提升了AI大模型推理能力,同時也能夠作為機頭CPU為GPU和其他加速器提供高速數據供給,進一步縮短整體模型訓練時間。在滿足混合工作負載需求的同時,其TCO平均降低30%,大模型推理加速最高可達2.4倍。
無論是第五代至強還是全新的至強6處理器,英特爾均通過在核心架構、緩存系統(tǒng)、內存技術和專用AI加速器方面的全面革新,提供了業(yè)界領先的AI計算支持。這兩款產品為數據中心和高性能計算平臺在AI推理、訓練以及多樣化工作負載下提供了強大而高效的算力保障。

△圖1 英特爾高級矩陣擴展(AMX)
英特爾全方位的AI軟件生態(tài)支持
英特爾及其合作伙伴憑借多年AI積累,圍繞至強?可擴展處理器打造了完善的軟件生態(tài):廣泛支持主流開源框架,通過插件優(yōu)化及多樣化開源工具鏈,使用戶在x86平臺上能夠輕松開發(fā)、部署通用AI應用,無需手動調整,同時確保從終端到云的全程安全保護。
此外,至強?處理器內置多種AI加速指令(如AVX-512、AMX),使得任何兼容軟件均可直接調用加速功能。開發(fā)者可免費下載英特爾分發(fā)版工具、庫及開發(fā)環(huán)境,充分利用這些內置加速器應對各類AI管線需求。結合多樣化硬件優(yōu)勢與開放生態(tài),英特爾通過經濟、可擴展的方案,將AI能力無縫延伸至云端與邊緣。
其中,xFasterTransformer(xFT)是英特爾官方開源的AI推理框架,專為大語言模型在至強?平臺上深度優(yōu)化。xFT不僅支持多種數據精度(FP16、BF16、INT8、INT4),還能利用多CPU節(jié)點實現分布式部署,顯著提升推理性能并降低成本。其簡單的安裝和與主流Serving框架(如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,幫助用戶快速加速大模型應用。在3.1節(jié)中基于天翼云EMR云主機和xFasterTransformer加速引擎實現了對與DeepSeek R1蒸餾模型的高效推理部署。

△圖2 英特爾提供AI軟件工具 全面兼容主流AI開發(fā)框架
附錄2 CPU環(huán)境下部署DeepSeek-R1 671B模型實踐
環(huán)境配置
硬件配置
- CPU:Intel?Xeon??6980P Processor, 128core 2.00 GHz
- 內存 24*64GB DDR5-6400
- 存儲 1TB NVMe SSD
軟件環(huán)境
- OS: Ubuntu 22.04.5 LTS
- Kernel: 5.15.0-131-generic
- llama.cpp: github bd6e55b
- cmake: 3.22.0
- gcc/g++: 11.4.0
- Python: 3.12.8
- git: 2.34.1
BIOS?關閉sub NUMA相關配置。
注:版本是指本測試中服務器上安裝的版本,并?要求的最低版本。
部署步驟
1. 安裝llama.cpp
參考llama.cpp官?的安裝說明,我們的步驟如下。
# 下載llama.cpp推理框架源碼
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 預先準備intel oneapi庫
source /opt/intel/oneapi/setvars.sh
# 基于oneapi庫對llama.cpp進行編譯
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON
cmake --build build --config Release -j$nproc
2. 下載模型?件
我們直接使用了社區(qū)制作的DeepSeek 671B滿血模型的Q4量化版,您也可以下載DeepSeek官方BF16版本,并通過 llama.cpp 提供的腳本轉換為 GGUF 格式。
社區(qū)提供了從 1bit 到 8bit 不同版本的量化選項,具體區(qū)別可以參考社區(qū)網頁。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果,建議使用 Q8_0 版本。


# 下載unsloth制作的社區(qū)版量化模型(hf-mirror和modelscpoe源都可)
git clone —no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/
# 建議nohup執(zhí)行, 預計至少需要半天時間, 同時確保磁盤容量足夠400G.
git lfs pull —include=”DeepSeek-R1-Q4_K_M/*”
Q4_K_M 版本的文件大小為 404.43GB,下載過程可能會比較耗時。下載完成后,您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 文件,例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。
3. 模型加載和運?
使用 llama-cli,指定模型文件路徑并啟用交互模式,DeepSeek R1 滿血版就可以在 CPU 上順利運行了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
下面用幾個示例展現DeepSeek-R1 671B滿血版強大的的reasoning推理能力:
測試模型自我認知:

驗證推理能?的經典“草莓”問題:

“等燈等燈”的意思:

4. 性能及優(yōu)化
那么CPU運?滿?版R1的性能怎么樣呢?我們做了相關性能測試。對于Q4_K_M模型,使?如下命令進行:
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf
numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 —temp 0.6 -s 42 -no-cnv —no-kv-offload -ctk q4_0 -c 8192 -n 128 -p “<|User|>以孤獨的夜行者為題寫一篇750字的散文,描繪一個人在城市中夜晚漫無目的行走的心情與所見所感,以及夜的寂靜給予的獨特感悟。<|Assistant|>”
這?使?numactl來指定使?單路CPU (0-127, 6980P有128核),以及這?路CPU的內存節(jié)點(numa0),避免跨numa傳輸以獲取最佳性能。
llama.cpp是本地編譯的,編譯的時候使?Intel oneAPI可以有效提升它的性能。英特爾嘗試?了oneAPI?的Intel C++編譯器和數學加速庫MKL,結合jemalloc內存管理優(yōu)化,推理速度可以達到每秒9.7~10詞元 (TPS, tokens per second)。
上?的實驗是在單路CPU上進?的,我們?在兩路CPU上各?獨?啟動1個模型實例,總速度可以達到14.7TPS (7.32TPS+7.38TPS)。
再進?步,英特爾觀察到基于現有的llama.cpp軟件?案,在CPU平臺沒有實現?效的專家并?和張量并?等優(yōu)化,CPU核?利?率和帶寬資源沒有充分發(fā)揮出來,6980P的128核?運?1個模型還有不少性能儲備。預計可以繼續(xù)增加實例數來獲得更好的總TPS。
另外,通常情況下,CPU的SNC (Sub-NUMA Clustering)設置可以獲得更?的帶寬,但是受限于軟件并未優(yōu)化實現良好匹配,此次實驗關閉了SNC測試。
以下?式的系統(tǒng)配置也有助于提升性能:
- BIOS?關閉AMP prefetcher
- ?cpupower打開CPU的pstate性能模式
- 提?CPU的uncore頻率
- 關閉超線程(Hyper-Threading)
注: 為了加快試驗進度,我們限制了詞元輸出?度(-n 128)。經過驗證,增加輸出?度(例如-n 512)對于生成性能指標的影響不大。
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學Dijkstra算法被超越!清華段然團隊打破圖靈獎得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時代!納米AI多智能體蜂群,可創(chuàng)作最長10分鐘AI視頻2025-08-06