天翼云CPU實(shí)例部署DeepSeek-R1模型最佳實(shí)踐
單路CPU即可運(yùn)行
文章來(lái)源:天翼云網(wǎng)站
量子位 | 公眾號(hào) QbitAI
本文介紹了英特爾?至強(qiáng)?處理器在AI推理領(lǐng)域的優(yōu)勢(shì),如何使用一鍵部署的鏡像進(jìn)行純CPU環(huán)境下基于AMX加速后的DeepSeek-R1 7B蒸餾模型推理,以及純CPU環(huán)境下部署DeepSeek-R1 671B滿血版模型實(shí)踐。
大模型因其參數(shù)規(guī)模龐大、結(jié)構(gòu)復(fù)雜,通常需要強(qiáng)大的計(jì)算資源來(lái)支持其推理過(guò)程,這使得算力成為大模型應(yīng)用的核心要素。隨著DeepSeek-R1模型的問(wèn)世,各行各業(yè)紛紛展開了關(guān)于如何接入大模型能力的廣泛調(diào)研與探索,市場(chǎng)對(duì)大模型推理算力的需求呈現(xiàn)出爆發(fā)式增長(zhǎng)的趨勢(shì)。
例如在醫(yī)療、金融、零售等領(lǐng)域,企業(yè)迫切希望通過(guò)接入DeepSeek大模型來(lái)提升決策效率和業(yè)務(wù)能力,從而推動(dòng)行業(yè)的創(chuàng)新發(fā)展。在這一背景下,算力的供給和優(yōu)化成為推動(dòng)大模型落地應(yīng)用的重要因素。
近年來(lái),CPU制程和架構(gòu)的提升以及英特爾?高級(jí)矩陣擴(kuò)展AMX(Advanced Matrix Extensions)加速器的面世帶來(lái)了算力的快速提升。英特爾對(duì)大模型推理等多個(gè)AI領(lǐng)域持續(xù)深入研究,提供全方位的AI軟件支持,兼容主流AI軟件且提供多種軟件方式提升CPU的AI性能。目前,已有充分的數(shù)據(jù)顯示CPU完全可以用于大模型推理場(chǎng)景。
CPU適用于以下大模型推理場(chǎng)景:
- 場(chǎng)景1: 大模型推理需要的內(nèi)存超過(guò)了單塊GPU的顯存容量,需要多塊或更高配GPU卡,采用CPU方案,可以降低成本;
- 場(chǎng)景2: 應(yīng)用請(qǐng)求量小,GPU利用率低,采用CPU推理,資源劃分的粒度更小,可有效降低起建成本;
- 場(chǎng)景3: GPU資源緊缺,CPU更容易獲取,且可以勝任大模型推理。
天翼云EMR實(shí)例DeepSeek-R1-Distill-Qwen-7B蒸餾模型部署實(shí)踐
本節(jié)內(nèi)容主要介紹如何在天翼云EMR實(shí)例上,基于Intel? xFasterTransformer加速庫(kù)和vllm推理引擎完成模型部署,并展示相關(guān)性能指標(biāo)。
服務(wù)部署
為了方便用戶使用,天翼云聯(lián)合英特爾制作了一鍵部署的云主機(jī)鏡像,內(nèi)置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架、xFT加速庫(kù)以及open-webui前端可視環(huán)境。您可在天翼云控制臺(tái)選擇下列資源池和鏡像,開通云主機(jī)進(jìn)行體驗(yàn)。

完成云主機(jī)開通后,推理服務(wù)會(huì)在5分鐘內(nèi)自動(dòng)啟動(dòng),您無(wú)需進(jìn)行任何其他操作。
注:如需在云主機(jī)外訪問(wèn)服務(wù),您需要綁定彈性IP,并在安全組內(nèi)放行22/3000/8000端口。
模型使用
open-webui前端使用
鏡像已內(nèi)置open-webui,并已完成和vllm的連接配置,可直接通過(guò)以下地址進(jìn)行訪問(wèn):
http://[彈性IP]:3000/
注:1.首次打開頁(yè)面時(shí),您需要先完成管理員注冊(cè),以進(jìn)行后續(xù)的用戶管理。注冊(cè)數(shù)據(jù)均保存在云實(shí)例的/root/volume/open-webui目錄下。
2.如果首次打開對(duì)話頁(yè)面時(shí)沒(méi)有模型可供選擇, 請(qǐng)您稍等幾分鐘讓模型完成加載即可。

vllm api調(diào)用
鏡像內(nèi)置vllm服務(wù)可直接通過(guò)如下地址訪問(wèn):
# 根路徑
http://[彈性IP]:8000/
# 查詢現(xiàn)有模型
http://[彈性IP]:8000/v1/models
# 其他api接口參閱vllm文檔
注:vllm服務(wù)配置有API_KEY,您可在云實(shí)例的/root/recreate_container.sh文件開頭查看到當(dāng)前值,并可進(jìn)行修改以確保服務(wù)安全。
性能指標(biāo)
借助于英特爾AMX的加速能力,本推理服務(wù)能夠取得顯著的性能提升,天翼云完成測(cè)試并給出參考指標(biāo)如下:
基本參數(shù)
vcpu數(shù):24(物理核12)
內(nèi)存:64GB
硬盤:60G 通用型SSD
模型:DeepSeek-R1-Distill-Qwen-7B(bf16)
batch size:1
輸入token個(gè)數(shù):30-60
輸出token個(gè)數(shù):256
性能數(shù)據(jù)
平均token生成速率:

首token時(shí)延:

在天翼云c8e系列24vcpu云主機(jī)上,啟用AMX加速能力后,DeepSeek 7B蒸餾模型(BF16)推理速度能夠超越9token/s,滿足日常使用需求。
基于英特爾?至強(qiáng)?6處理器部署滿血版DeepSeek-R1 671B實(shí)踐
性能指標(biāo)
DeepSeek R1 671B 滿血版模型以其卓越的性能,為用戶帶來(lái)了極致的效果體驗(yàn),不過(guò)其部署成本也不容小覷。若采用傳統(tǒng)的 GPU 部署方式,需要8-16張 GPU 才能提供足夠的支持,這無(wú)疑大幅增加了硬件購(gòu)置、能耗以及維護(hù)等方面的成本。
在這樣的背景下,天翼云基于英特爾?提供的至強(qiáng)?6處理器服務(wù)器進(jìn)行了DeepSeek R1 671B滿血版Q4_K_M模型的部署嘗試,測(cè)試結(jié)果如下:
1-instance 1-socket:
平均吞吐性能9.7~10 token/s
2-instance 1-socket:
平均7.32 token/s和7.38token/s, 共14.7token/s
從上面測(cè)試數(shù)據(jù)可以看到,采用單實(shí)例單socket部署下,DeepSeek R1 671B滿血版模型可達(dá)到平均9.7~10 token/s的吞吐量,而在雙實(shí)例部署模式中,總體吞吐量提升至14.7 token/s。單顆CPU系統(tǒng)的吞吐性能可以達(dá)到普通用戶正常使用的需要。
英特爾?至強(qiáng)?6處理器簡(jiǎn)介
英特爾?至強(qiáng)?CPU 為 DeepSeek R1 671B 模型的部署提供了一個(gè)極具競(jìng)爭(zhēng)力的方案。英特爾?至強(qiáng)?CPU 具備支持 T 級(jí)超大內(nèi)存的能力,這使得它在權(quán)重存儲(chǔ)與加載方面表現(xiàn)高效。對(duì)于像 DeepSeek R1 671B 這樣的超大模型,其所需的顯存容量在多卡 GPU 配置下才能滿足,而英特爾?至強(qiáng)?CPU 能夠憑借其強(qiáng)大的內(nèi)存支持能力,為該模型提供良好的運(yùn)行環(huán)境。
此外,DeepSeek R1 模型采用的 MOE(Mixture of Experts)結(jié)構(gòu),通過(guò)參數(shù)稀疏化的方式,使得在單 token 推理時(shí)僅需激活少量專家參數(shù)。這種特性顯著降低了推理過(guò)程中的算力要求,與 CPU 的計(jì)算特點(diǎn)相契合,使得模型在 CPU 系統(tǒng)上的運(yùn)行更加高效。這意味著在英特爾?至強(qiáng)?CPU 上部署 DeepSeek R1 671B 模型,不僅能夠充分發(fā)揮模型的性能優(yōu)勢(shì),還能有效降低部署成本,避免了對(duì)大量 GPU 的依賴。
如需復(fù)現(xiàn)以上性能測(cè)試結(jié)果,請(qǐng)參看附錄2
總結(jié)
通過(guò)本次實(shí)踐,無(wú)論是在天翼云EMR云實(shí)例上結(jié)合xFasterTransformer部署DS R1 distill Qwen-7B蒸餾模型,還是基于英特爾?至強(qiáng)?6處理器部署滿血版DeepSeek-R1 671B模型,均驗(yàn)證了CPU系統(tǒng)在DeepSeek大模型推理上的可行性和符合業(yè)界普遍要求的性能表現(xiàn)。CPU系統(tǒng)不僅能夠靈活應(yīng)對(duì)不同規(guī)模的模型需求,無(wú)論是輕量化蒸餾模型還是全功能滿血模型,都能高效滿足用戶場(chǎng)景需求,提供了一種低成本、經(jīng)濟(jì)高效的解決方案。
附錄1英特爾?至強(qiáng)?可擴(kuò)展處理器與AI加速技術(shù)
最新英特爾?至強(qiáng)?可擴(kuò)展處理器產(chǎn)品
英特爾第五代?至強(qiáng)?可擴(kuò)展處理器(代號(hào) Emerald Rapids)——為AI加速而生
第五代英特爾?至強(qiáng)?處理器以專為AI工作負(fù)載量身定制的設(shè)計(jì)理念,實(shí)現(xiàn)了核心架構(gòu)和內(nèi)存系統(tǒng)的雙重飛躍。其64核心設(shè)計(jì)搭配高達(dá)320MB的三級(jí)緩存(每核心由1.875MB提升至5MB),相較上代緩存容量實(shí)現(xiàn)近三倍增長(zhǎng),為大規(guī)模并行AI推理提供充裕的本地?cái)?shù)據(jù)存儲(chǔ)空間。與此同時(shí),處理器支持DDR5-5600高速內(nèi)存,單路最大4TB的容量保證了大數(shù)據(jù)處理時(shí)的帶寬和延遲優(yōu)勢(shì)?;谶@些硬件提升,Emerald Rapids整體性能較上一代提升21%,AI推理性能平均提升42%,在大語(yǔ)言模型推理場(chǎng)景中可實(shí)現(xiàn)最高1.5倍的性能加速,同時(shí)大幅降低總擁有成本達(dá)77%。
英特爾?至強(qiáng)?6處理器(代號(hào) GNR Granite Rapids)——引領(lǐng)CPU AI算力革新
全新GNR處理器專為應(yīng)對(duì)人工智能、數(shù)據(jù)分析及科學(xué)計(jì)算等計(jì)算密集型任務(wù)而設(shè)計(jì)。該產(chǎn)品在內(nèi)核數(shù)量、內(nèi)存帶寬及專用AI加速器方面均實(shí)現(xiàn)重大突破:
- 核心與性能:每CPU配備多達(dá)128個(gè)性能核心,單路核心數(shù)較上一代翻倍,同時(shí)平均單核性能提升達(dá)1.2倍、每瓦性能提升1.6倍,進(jìn)一步強(qiáng)化了CPU在大模型推理中的獨(dú)立處理能力;
- AI加速功能:內(nèi)置英特爾?高級(jí)矩陣擴(kuò)展(AMX)新增對(duì)FP16數(shù)據(jù)類型的支持,使得生成式AI和傳統(tǒng)深度學(xué)習(xí)推理任務(wù)均能獲得顯著加速;
- 內(nèi)存與I/O突破:支持DDR5-6400內(nèi)存及英特爾首款引入的Multiplexed Rank DIMM (MRDIMM) 技術(shù),有效將內(nèi)存帶寬提升至上一代的2.3倍;同時(shí),高達(dá)504MB的三級(jí)緩存和低延遲設(shè)計(jì)確保數(shù)據(jù)能夠更快加載,為復(fù)雜模型訓(xùn)練和推理縮短響應(yīng)時(shí)間。
英特爾?至強(qiáng)?6處理器不僅通過(guò)更多的核心和更高的單線程性能提升了AI大模型推理能力,同時(shí)也能夠作為機(jī)頭CPU為GPU和其他加速器提供高速數(shù)據(jù)供給,進(jìn)一步縮短整體模型訓(xùn)練時(shí)間。在滿足混合工作負(fù)載需求的同時(shí),其TCO平均降低30%,大模型推理加速最高可達(dá)2.4倍。
無(wú)論是第五代至強(qiáng)還是全新的至強(qiáng)6處理器,英特爾均通過(guò)在核心架構(gòu)、緩存系統(tǒng)、內(nèi)存技術(shù)和專用AI加速器方面的全面革新,提供了業(yè)界領(lǐng)先的AI計(jì)算支持。這兩款產(chǎn)品為數(shù)據(jù)中心和高性能計(jì)算平臺(tái)在AI推理、訓(xùn)練以及多樣化工作負(fù)載下提供了強(qiáng)大而高效的算力保障。

△圖1 英特爾高級(jí)矩陣擴(kuò)展(AMX)
英特爾全方位的AI軟件生態(tài)支持
英特爾及其合作伙伴憑借多年AI積累,圍繞至強(qiáng)?可擴(kuò)展處理器打造了完善的軟件生態(tài):廣泛支持主流開源框架,通過(guò)插件優(yōu)化及多樣化開源工具鏈,使用戶在x86平臺(tái)上能夠輕松開發(fā)、部署通用AI應(yīng)用,無(wú)需手動(dòng)調(diào)整,同時(shí)確保從終端到云的全程安全保護(hù)。
此外,至強(qiáng)?處理器內(nèi)置多種AI加速指令(如AVX-512、AMX),使得任何兼容軟件均可直接調(diào)用加速功能。開發(fā)者可免費(fèi)下載英特爾分發(fā)版工具、庫(kù)及開發(fā)環(huán)境,充分利用這些內(nèi)置加速器應(yīng)對(duì)各類AI管線需求。結(jié)合多樣化硬件優(yōu)勢(shì)與開放生態(tài),英特爾通過(guò)經(jīng)濟(jì)、可擴(kuò)展的方案,將AI能力無(wú)縫延伸至云端與邊緣。
其中,xFasterTransformer(xFT)是英特爾官方開源的AI推理框架,專為大語(yǔ)言模型在至強(qiáng)?平臺(tái)上深度優(yōu)化。xFT不僅支持多種數(shù)據(jù)精度(FP16、BF16、INT8、INT4),還能利用多CPU節(jié)點(diǎn)實(shí)現(xiàn)分布式部署,顯著提升推理性能并降低成本。其簡(jiǎn)單的安裝和與主流Serving框架(如vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,幫助用戶快速加速大模型應(yīng)用。在3.1節(jié)中基于天翼云EMR云主機(jī)和xFasterTransformer加速引擎實(shí)現(xiàn)了對(duì)與DeepSeek R1蒸餾模型的高效推理部署。

△圖2 英特爾提供AI軟件工具 全面兼容主流AI開發(fā)框架
附錄2 CPU環(huán)境下部署DeepSeek-R1 671B模型實(shí)踐
環(huán)境配置
硬件配置
- CPU:Intel?Xeon??6980P Processor, 128core 2.00 GHz
- 內(nèi)存 24*64GB DDR5-6400
- 存儲(chǔ) 1TB NVMe SSD
軟件環(huán)境
- OS: Ubuntu 22.04.5 LTS
- Kernel: 5.15.0-131-generic
- llama.cpp: github bd6e55b
- cmake: 3.22.0
- gcc/g++: 11.4.0
- Python: 3.12.8
- git: 2.34.1
BIOS?關(guān)閉sub NUMA相關(guān)配置。
注:版本是指本測(cè)試中服務(wù)器上安裝的版本,并?要求的最低版本。
部署步驟
1. 安裝llama.cpp
參考llama.cpp官?的安裝說(shuō)明,我們的步驟如下。
# 下載llama.cpp推理框架源碼
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
# 預(yù)先準(zhǔn)備intel oneapi庫(kù)
source /opt/intel/oneapi/setvars.sh
# 基于oneapi庫(kù)對(duì)llama.cpp進(jìn)行編譯
cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON
cmake --build build --config Release -j$nproc
2. 下載模型?件
我們直接使用了社區(qū)制作的DeepSeek 671B滿血模型的Q4量化版,您也可以下載DeepSeek官方BF16版本,并通過(guò) llama.cpp 提供的腳本轉(zhuǎn)換為 GGUF 格式。
社區(qū)提供了從 1bit 到 8bit 不同版本的量化選項(xiàng),具體區(qū)別可以參考社區(qū)網(wǎng)頁(yè)。我們選擇了使用最受歡迎的 Q4_K_M 版本。如果追求最佳效果,建議使用 Q8_0 版本。


# 下載unsloth制作的社區(qū)版量化模型(hf-mirror和modelscpoe源都可)
git clone —no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/
# 建議nohup執(zhí)行, 預(yù)計(jì)至少需要半天時(shí)間, 同時(shí)確保磁盤容量足夠400G.
git lfs pull —include=”DeepSeek-R1-Q4_K_M/*”
Q4_K_M 版本的文件大小為 404.43GB,下載過(guò)程可能會(huì)比較耗時(shí)。下載完成后,您可以在 DeepSeek-R1-Q4_K_M 目錄下找到一系列 .gguf 文件,例如 DeepSeek-R1-Q4_K_M-00001-of-00009.gguf。
3. 模型加載和運(yùn)?
使用 llama-cli,指定模型文件路徑并啟用交互模式,DeepSeek R1 滿血版就可以在 CPU 上順利運(yùn)行了。
build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i
下面用幾個(gè)示例展現(xiàn)DeepSeek-R1 671B滿血版強(qiáng)大的的reasoning推理能力:
測(cè)試模型自我認(rèn)知:

驗(yàn)證推理能?的經(jīng)典“草莓”問(wèn)題:

“等燈等燈”的意思:

4. 性能及優(yōu)化
那么CPU運(yùn)?滿?版R1的性能怎么樣呢?我們做了相關(guān)性能測(cè)試。對(duì)于Q4_K_M模型,使?如下命令進(jìn)行:
export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.gguf
numactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 —temp 0.6 -s 42 -no-cnv —no-kv-offload -ctk q4_0 -c 8192 -n 128 -p “<|User|>以孤獨(dú)的夜行者為題寫一篇750字的散文,描繪一個(gè)人在城市中夜晚漫無(wú)目的行走的心情與所見(jiàn)所感,以及夜的寂靜給予的獨(dú)特感悟。<|Assistant|>”
這?使?numactl來(lái)指定使?單路CPU (0-127, 6980P有128核),以及這?路CPU的內(nèi)存節(jié)點(diǎn)(numa0),避免跨numa傳輸以獲取最佳性能。
llama.cpp是本地編譯的,編譯的時(shí)候使?Intel oneAPI可以有效提升它的性能。英特爾嘗試?了oneAPI?的Intel C++編譯器和數(shù)學(xué)加速庫(kù)MKL,結(jié)合jemalloc內(nèi)存管理優(yōu)化,推理速度可以達(dá)到每秒9.7~10詞元 (TPS, tokens per second)。
上?的實(shí)驗(yàn)是在單路CPU上進(jìn)?的,我們?在兩路CPU上各?獨(dú)?啟動(dòng)1個(gè)模型實(shí)例,總速度可以達(dá)到14.7TPS (7.32TPS+7.38TPS)。
再進(jìn)?步,英特爾觀察到基于現(xiàn)有的llama.cpp軟件?案,在CPU平臺(tái)沒(méi)有實(shí)現(xiàn)?效的專家并?和張量并?等優(yōu)化,CPU核?利?率和帶寬資源沒(méi)有充分發(fā)揮出來(lái),6980P的128核?運(yùn)?1個(gè)模型還有不少性能儲(chǔ)備。預(yù)計(jì)可以繼續(xù)增加實(shí)例數(shù)來(lái)獲得更好的總TPS。
另外,通常情況下,CPU的SNC (Sub-NUMA Clustering)設(shè)置可以獲得更?的帶寬,但是受限于軟件并未優(yōu)化實(shí)現(xiàn)良好匹配,此次實(shí)驗(yàn)關(guān)閉了SNC測(cè)試。
以下?式的系統(tǒng)配置也有助于提升性能:
- BIOS?關(guān)閉AMP prefetcher
- ?cpupower打開CPU的pstate性能模式
- 提?CPU的uncore頻率
- 關(guān)閉超線程(Hyper-Threading)
注: 為了加快試驗(yàn)進(jìn)度,我們限制了詞元輸出?度(-n 128)。經(jīng)過(guò)驗(yàn)證,增加輸出?度(例如-n 512)對(duì)于生成性能指標(biāo)的影響不大。
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12
- 本科必學(xué)Dijkstra算法被超越!清華段然團(tuán)隊(duì)打破圖靈獎(jiǎng)得主證明的普遍最優(yōu)性2025-08-09
- 智能體邁入L4 時(shí)代!納米AI多智能體蜂群,可創(chuàng)作最長(zhǎng)10分鐘AI視頻2025-08-06