飛槳新一代框架3.0正式發(fā)布:加速大模型時代的技術創(chuàng)新與產(chǎn)業(yè)應用
飛槳框架3.0已全面開放,兼容2.0版本的開發(fā)接口,歡迎廣大開發(fā)者使用和反饋。
人工智能技術日新月異,深度學習框架作為技術底座深刻影響著算法創(chuàng)新的速度與產(chǎn)業(yè)落地的深度。飛槳框架以五大核心突破回應時代命題,正式發(fā)布3.0版本。飛槳框架3.0實現(xiàn)了從底層硬件適配到頂層開發(fā)體驗的全面進化,在訓練效率、性能、兼容性等關鍵指標上建立新標桿,作為支撐千行百業(yè)智能化轉型的”AI操作系統(tǒng)”,此次升級不僅是技術參數(shù)的迭代,更是面向大模型工業(yè)化生產(chǎn)范式的革命性突破。無論是前沿算法研究還是產(chǎn)業(yè)級大模型落地,飛槳框架3.0都將成為開發(fā)者的首選利器。
作為中國首個自主研發(fā)的產(chǎn)業(yè)級深度學習平臺,飛槳一直堅持開源路線,支撐產(chǎn)業(yè)智能化升級。2025年4月1日,飛槳框架迎來重大更新,發(fā)布飛槳框架3.0正式版。飛槳框架3.0版本不僅延續(xù)了飛槳框架2.0系列動靜統(tǒng)一、訓推一體的特性,更在自動并行、神經(jīng)網(wǎng)絡編譯器、高階自動微分等方面取得突破,為大模型時代的技術創(chuàng)新與產(chǎn)業(yè)應用提供了強大支撐,為開發(fā)者打造了一站式、高性能的深度學習開發(fā)體驗。
飛槳框架3.0具備以下五大新特性:
1)動靜統(tǒng)一自動并行:通過少量的張量切分標記,即可自動完成分布式切分信息的推導,Llama預訓練場景減少80%的分布式相關代碼開發(fā)。
2)大模型訓推一體:依托高擴展性的中間表示(PIR)從模型壓縮、推理計算、服務部署、多硬件推理全方位深度優(yōu)化,支持文心4.5、文心X1等多款主流大模型,DeepSeek-R1滿血版單機部署吞吐提升一倍。
3)科學計算高階微分:通過高階自動微分和神經(jīng)網(wǎng)絡編譯器技術,微分方程求解速度比PyTorch快115%。
4)神經(jīng)網(wǎng)絡編譯器:通過自動算子自動融合技術,無需手寫CUDA等底層代碼,部分算子執(zhí)行速度提升4倍,模型端到端訓練速度提升27.4%。
5)異構多芯適配:通過對硬件接入模塊進行抽象,降低異構芯片與框架適配的復雜度,兼容硬件差異,初次跑通所需適配接口數(shù)比PyTorch減少56%,代碼量減少80%。
背景概述
在大模型時代,深度學習框架的重要性愈發(fā)凸顯,成為推動人工智能技術發(fā)展的核心引擎。算法、算力、數(shù)據(jù)作為人工智能技術的三大要素,其相互作用與協(xié)同發(fā)展不斷催生著新的突破。越來越多的實例證明,算法創(chuàng)新能夠發(fā)揮出更為顯著的威力。DeepMind的AlphaFold3通過動態(tài)擴散算法突破蛋白質(zhì)結構預測精度,已成功應用于抗瘧疾等藥物分子設計;DeepSeek通過算法創(chuàng)新,成功提升了DeepSeek V3模型的性價比,大幅降低了訓練成本。這些突破性進展表明,算法創(chuàng)新正在重構技術發(fā)展的成本曲線。
然而,算法創(chuàng)新并非易事,當前算法工程師和科研人員在使用現(xiàn)有深度學習框架進行算法創(chuàng)新時,仍面臨諸多挑戰(zhàn)。
1)大模型分布式開發(fā)門檻高:大模型參數(shù)規(guī)模龐大,其分布式訓練需使用復雜的并行策略,包括數(shù)據(jù)并行、張量并行、參數(shù)分片并行、流水線并行、序列并行、專家并行等。大模型開發(fā)中,如何實現(xiàn)多種并行策略的高效協(xié)同已成為關鍵瓶頸。
2)模型推理部署困難重重:由于算法訓練和推理任務的計算、通信存在較大差別,算法工程師在完成模型算法創(chuàng)新后,往往難以直接應用于推理部署,需要大量的工程開發(fā)工作。
3)前沿模型架構靈活多變:科學智能(AI for Science)等新興領域的快速發(fā)展,對深度學習框架提出了新的要求,包括求解復雜微分方程所需的高階自動微分、傅里葉變換等科學計算操作、復數(shù)的高效運算等。
4)模型極致性能優(yōu)化難度大:以大模型為代表的很多場景對訓練推理速度有嚴苛要求,為突破計算瓶頸,工程實踐中常需通過手寫CUDA內(nèi)核代碼進行性能優(yōu)化,這對算法工程師的底層編程能力提出了極高要求。
5)異構芯片適配成本高:AI應用場景豐富多樣、算力需求巨大,單一芯片難以滿足業(yè)務需求。而不同芯片之間的硬件架構、軟件棧成熟度、開發(fā)接口差異大,業(yè)務適配成本高、軟硬協(xié)同優(yōu)化難。
為此,飛槳新一代框架3.0應運而生:該版本提供了豐富的深度學習相關的各種開發(fā)接口;表示層專注于計算圖的表達與轉換,通過高可擴展中間表示PIR,實現(xiàn)動轉靜、自動微分、自動并行、算子組合以及計算圖優(yōu)化等核心功能;調(diào)度層負責對代碼或計算圖進行智能編排與高效調(diào)度,支持動態(tài)圖和靜態(tài)圖兩種不同的執(zhí)行模式;算子層由神經(jīng)網(wǎng)絡編譯器CINN和算子庫PHI共同構成,涵蓋了張量定義、算子定義、算子自動融合和算子內(nèi)核實現(xiàn)等關鍵功能;適配層則用于實現(xiàn)與底層芯片適配,包括設備管理、算子適配、通信適配以及編譯接入等功能。

飛槳框架3.0架構圖
飛槳框架3.0憑借強大的功能和優(yōu)化的設計,幫助算法工程師和科研人員以更低的成本進行算法創(chuàng)新,并實現(xiàn)產(chǎn)業(yè)應用。以百度文心大模型為例,飛槳框架3.0在訓練、推理等方面為文心大模型提供端到端優(yōu)化,訓練方面重點提升訓練吞吐、訓練有效率和收斂效率,集群訓練有效率超過98%;推理部署方面通過注意力機制量化推理、通用投機解碼等技術提升推理吞吐和效率;全面支持文心4.5、文心X1等大模型的技術創(chuàng)新和產(chǎn)業(yè)應用。
一、全面支持自動并行訓練,降低大模型開發(fā)訓練門檻
在大模型時代,隨著模型規(guī)模和訓練數(shù)據(jù)量的不斷增長,傳統(tǒng)的單機單卡訓練已無法滿足需求,分布式并行訓練成為加速大模型迭代的關鍵。然而,無論是動態(tài)圖還是靜態(tài)圖,當前市場上的并行訓練框架普遍存在使用成本高的問題。開發(fā)者既要熟知模型結構,還要深入了解并行策略和框架調(diào)度邏輯,使得大模型的開發(fā)和性能優(yōu)化門檻非常高,制約了大模型的開發(fā)和訓練效率。
針對這一痛點,飛槳提出了動靜統(tǒng)一自動并行方案。該技術通過原生動態(tài)圖的編程界面與自動并行能力,同時保障了靈活性和易用性,大幅降低了大模型并行訓練的開發(fā)成本;同時,利用框架動靜統(tǒng)一的優(yōu)勢,一鍵轉靜使用靜態(tài)優(yōu)化能力,提供極致的大模型并行訓練性能。開發(fā)者僅需少量的張量切分標記,框架便能自動推導出所有張量和算子的分布式切分狀態(tài),并添加合適的通信算子,保證結果正確性。具體工作流程如下圖所示:

動靜統(tǒng)一自動并行流程圖
飛槳框架3.0動靜統(tǒng)一自動并行技術的具體特點如下:
1)簡單易用,大幅降低大模型并行訓練開發(fā)成本。飛槳自動并行功能允許用戶在不考慮復雜分布式通信的情況下完成算法實現(xiàn)。僅需借助少量API調(diào)用,即可將算法轉換為并行訓練程序,顯著簡化開發(fā)過程。以Llama2的預訓練為例,傳統(tǒng)實現(xiàn)方式需要開發(fā)者精細調(diào)整通信策略,以確保正確高效執(zhí)行,而自動并行實現(xiàn)方式相比傳統(tǒng)方式減少80%的分布式核心代碼,極大降低了開發(fā)復雜度。
2)全面可用,適用于眾多大模型訓練場景。基于飛槳大模型開發(fā)套件(PaddleNLP、PaddleMIX),飛槳框架已全面驗證Llama、QwenVL等從大語言模型到多模態(tài)模型的預訓練、精調(diào)階段的自動并行訓練。
3)輕松加速,一鍵動轉靜提供極致性能優(yōu)化。得益于飛槳框架獨特的動靜統(tǒng)一設計,用戶僅需簡單添加一行代碼,即可輕松實現(xiàn)從動態(tài)到靜態(tài)的轉換。這一轉換使得我們能夠充分利用多種靜態(tài)優(yōu)化技術,匹敵甚至超越經(jīng)過極致優(yōu)化的動態(tài)圖訓練效率。
4)協(xié)同文心,開源多項大模型獨創(chuàng)優(yōu)化策略。飛槳協(xié)同文心創(chuàng)新實現(xiàn)精細化重計算、稀疏注意力計算優(yōu)化、靈活批次的流水線均衡優(yōu)化等,這些優(yōu)化技術在飛槳框架3.0中開源,助力開發(fā)者進行極致的大模型訓練性能優(yōu)化。
未來,我們將進一步探索無需使用張量切分標記的全自動并行,讓開發(fā)者可以像寫單機代碼一樣寫分布式代碼,進一步提升大模型的開發(fā)體驗。

動靜統(tǒng)一自動并行訓練速度對比
二、大模型訓推一體,提升推理部署效率
在完成模型的開發(fā)和訓練后,我們需要面對推理部署場景的挑戰(zhàn):如何低門檻、低開發(fā)成本、快速地將模型部署到業(yè)務場景,并提供低時延、高吞吐、低算力成本的推理服務。自2.0版本起,飛槳便采用了“動靜統(tǒng)一、訓推一體”的設計理念,3.0版本也繼續(xù)秉持這一理念,并在大模型場景下持續(xù)優(yōu)化,發(fā)揮更大作用。
在推理部署方面,相較于動態(tài)圖,靜態(tài)圖不僅可部署范圍更為廣泛,它能夠通過整圖導出的方式,擺脫對Python源代碼和執(zhí)行環(huán)境的依賴;而且更適合進行全局調(diào)優(yōu),可通過手寫或者借助編譯器自動實現(xiàn)算子融合等方式來加速推理過程。
得益于動靜統(tǒng)一的架構和接口設計,飛槳能夠完整支持動態(tài)圖和靜態(tài)圖這兩種不同的運行模式,并且具備出色的整圖導出能力。飛槳的動轉靜整圖導出成功率高達95%,高于PyTorch 62%。“訓推一體”意味著能夠在同一套框架下,盡可能復用訓練和推理的代碼,特別是復用模型組網(wǎng)代碼。在完成模型的開發(fā)訓練后,只需進行少量的開發(fā)工作,即可實現(xiàn)快速推理部署。與業(yè)界當前先使用PyTorch和DeepSpeed進行訓練,再采用vLLM、SGLang、ONNXRuntime等推理引擎進行推理部署的方案相比,飛槳采用訓練和推理使用同一套框架的方式,能夠有效避免不同框架之間可能出現(xiàn)的版本兼容性問題,以及因模型結構變化、中間表示差異、算子實現(xiàn)差異等帶來的困擾。

飛槳訓推一體架構設計
大模型的推理部署需要更好地平衡成本、性能和效果,飛槳框架3.0全面升級了大模型推理能力,依托高擴展性的中間表示(PIR)從模型壓縮、推理計算、服務部署、多硬件推理全方位深度優(yōu)化,能夠支持眾多開源大模型進行高性能推理,并在DeepSeek V3/R1上取得了突出的性能表現(xiàn)。飛槳框架3.0支持了DeepSeek V3/R1滿血版及其系列蒸餾版模型的FP8推理,并且提供INT8量化功能,破除了Hopper架構的限制。此外,還引入了4比特量化推理,使得用戶可以單機部署,降低成本的同時顯著提升系統(tǒng)吞吐一倍,提供了更為高效、經(jīng)濟的部署方案。在性能優(yōu)化方面,我們對MLA算子進行多級流水線編排、精細的寄存器及共享內(nèi)存分配優(yōu)化,性能相比FlashMLA最高可提升23%。綜合FP8矩陣計算調(diào)優(yōu)及動態(tài)量化算子優(yōu)化等基于飛槳框架3.0的DeepSeek R1 FP8推理,單機每秒輸出token數(shù)超1000;若采用4比特單機部署方案,每秒輸出token數(shù)可達2000以上,推理性能顯著領先其他開源方案。此外,還支持了MTP投機解碼,突破大批次推理加速,在解碼速度保持不變的情況下,吞吐提升144%;吞吐接近的情況下,解碼速度提升42%。針對長序列Prefill階段,通過注意力計算動態(tài)量化,首token推理速度提升37%。

DeepSeek模型單機推理速度對比(H800上256并發(fā)不含MTP測試)
三、助力科學前沿探索,提升微分方程求解速度
人工智能正以前所未有的方式重塑科學研究范式,成為推動科學發(fā)現(xiàn)與技術創(chuàng)新的“超級加速器”。例如,布朗大學團隊首次提出物理信息神經(jīng)網(wǎng)絡(PINNs),通過自動微分實現(xiàn)物理約束與數(shù)據(jù)驅動的結合;NVIDIA實驗室提出全球高分辨率氣象預報模型FourCastNet,預報時長從幾個小時縮短到幾秒鐘;2025年1月,Baker團隊在《Nature》發(fā)表研究,利用RFdiffusion算法從頭設計出能夠高效中和眼鏡蛇蛇毒中三指毒素的蛋白質(zhì)。科學智能(AI for Science)為解決科學問題帶來新方法的同時,也對深度學習框架帶來諸多新挑戰(zhàn)。對科學問題機理化的探索,需要深度學習框架能夠具備更加豐富的各類計算表達能力,如高階自動微分、傅里葉變換、復數(shù)運算、高階優(yōu)化器等等;此外,如何實現(xiàn)深度學習框架與傳統(tǒng)科學計算工具鏈的協(xié)同,也是需要思考的問題。
為了解決這些挑戰(zhàn),飛槳框架3.0提出了基于組合算子的高階自動微分技術,如下圖所示,該技術的核心思想是將復雜算子(如log_softmax)拆解為多個基礎算子的組合,然后對這些基礎算子進行一階自動微分變換。重要的是,基礎算子經(jīng)過一階自動微分變換后,其所得的計算圖仍然由基礎算子構成。通過反復應用一階自動微分規(guī)則,我們可以輕松地獲得高階自動微分的結果。這一機制不僅完美兼容動態(tài)圖模式和靜態(tài)圖模式,而且在動態(tài)圖模式下支持N+1階微分的靈活拆分,同時在靜態(tài)圖模式下能夠進行高效的編譯器融合優(yōu)化。

基于組合算子的高階自動微分技術
基于飛槳框架的高階自動微分和編譯優(yōu)化技術,實現(xiàn)了方程求解類模型性能的大幅提升,英偉達Modulus的41個不同方程實驗顯示,飛槳的微分方程求解速度比PyTorch開啟編譯器優(yōu)化后的2.6版本平均快 115%。此外,飛槳還實現(xiàn)了傅里葉變換、復數(shù)運算、高階優(yōu)化器等功能,這些方法在航空航天、汽車船舶、氣象海洋、生命科學等多個領域都具有廣泛的應用潛力,為科學研究和工程實踐提供了有力的支持。在模型層面,我們成功研發(fā)了賽槳(PaddleScience)、螺旋槳(PaddleHelix)等系列開發(fā)套件,為科學計算提供了更為便捷、高效的解決方案。飛槳對DeepXDE、Modulus等主流開源科學計算工具進行了廣泛適配,并成為DeepXDE的默認推薦后端。

飛槳AI for Science全景圖
四、神經(jīng)網(wǎng)絡編譯器技術,實現(xiàn)框架通用性能提升
在眾多深度學習的應用場景中,如大模型訓練、自動駕駛等,對模型的訓練與推理速度均提出了極高的要求。然而,要實現(xiàn)訓練與推理速度的提升并非易事,這需要我們緊密結合模型結構與硬件特性,開展大量的工程實現(xiàn)與優(yōu)化工作。在模型結構層面,模型結構正日益呈現(xiàn)出多樣化的趨勢,從基礎的全連接網(wǎng)絡,到復雜的卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、Attention網(wǎng)絡、狀態(tài)空間模型、圖神經(jīng)網(wǎng)絡等,每一種模型結構都擁有其獨特的計算模式與優(yōu)化需求。在硬件特性方面,算力的增長速度遠遠超過了訪存性能的提升,訪存性能的瓶頸限制了訪存密集型算子(如歸一化層、激活函數(shù)等)的執(zhí)行效率。特別是,當前市場上硬件平臺種類繁多,我們需要投入大量的人力物力,進行針對性的優(yōu)化工作,這將嚴重拖慢算法創(chuàng)新和產(chǎn)業(yè)應用的速度。
讓我們通過一個實例來闡釋這一點。我們以Llama模型中經(jīng)常使用的RMS Normalization(Root Mean Square Layer Normalization)為例,其計算公式相對簡單明了。

假設我們需要實現(xiàn)RMS Normalization的計算,最簡單的辦法是,我們可以使用飛槳框架提供的張量運算開發(fā)接口,調(diào)用平方、求和、除法、開根號等操作來完成,代碼如下:
class RMSNorm(paddle.nn.Layer):
def __init__(self):
super().__init__()
self.variance_epsilon = 1e-6
self.weight = paddle.create_parameter(shape=[768], ...)
def forward(self, x):
variance = x.pow(2).mean(-1, keepdim=True)
x = paddle.rsqrt(variance + self.variance_epsilon) * x
return x * self.weight
上述代碼開發(fā)簡單,但是由于存在大量的訪存操作導致性能很差,且顯存占比較多;為了突破訪存瓶頸,開發(fā)者可以選擇通過手寫CUDA代碼的方式實現(xiàn)一個融合的FusedRMSNorm算子,但是對于開發(fā)者要求更高,開發(fā)成本也更高,更重要的是這種方式極大降低了可維護性和靈活性。
為此,飛槳框架3.0研制了神經(jīng)網(wǎng)絡編譯器CINN(Compiler Infrastructure for Neural Networks),相比于PyTorch 2.0的Inductor加Triton的兩階段編譯方案,CINN支持直接從神經(jīng)網(wǎng)絡中間表述編譯生成CUDA C代碼,通過一階段的編譯方案,CINN避免了兩階段編譯由于中間表示信息傳遞和表達能力限制所造成的信息損失,具備更通用的融合能力和更好的性能表現(xiàn)。具體一些技術創(chuàng)新如下:
1)以Reduce為核心的算子融合技術。摒棄傳統(tǒng)的粗粒度pattern匹配模式,支持維度軸自動變換對齊融合,在保證計算正確性的同時,具有更強的算子融合能力,帶來更大的性能優(yōu)化潛力。
2)動靜態(tài)維度的高效后端Kernel調(diào)優(yōu)技術。算子全面支持reduce、broadcast、transpose等多種算子的不同組合方式,針對各類算子組合和數(shù)據(jù)類型,自適應不同維度大小與不同硬件配置,進行全場景高效調(diào)優(yōu)。通過自動向量化提高BF16、FP16等小數(shù)據(jù)類型的訪存效率。通過分析與分桶機制,實現(xiàn)動靜態(tài)運行時配置生成,根據(jù)運行時的硬件配置,在無需profiling的情況下生成高效的kernel。
3)動態(tài)維度的復雜表達式化簡技術。建立了分層化簡體系,Lower、Schedule、CodeGen階段執(zhí)行不同等級化簡方法,解決傳統(tǒng)化簡方法中多場景疊加后化簡困難、化簡不徹底問題。實現(xiàn)了復雜表達式結構化簡,抽取融合算子經(jīng)過編譯、調(diào)優(yōu)后的固定子結構進行專項化簡,且靈活支持自定義化簡方法。

神經(jīng)網(wǎng)絡編譯器CINN流程圖
借助神經(jīng)網(wǎng)絡編譯器技術,我們能夠在維持高度靈活性和易用性的基礎上,實現(xiàn)性能的顯著提升。以下為A100平臺上RMSNorm算子的性能測試結果:相較于采用Python開發(fā)接口組合實現(xiàn)的方式,經(jīng)過編譯優(yōu)化后的算子運行速度提升了 4倍;即便與手動算子融合的方式相比,也實現(xiàn)了14%的性能提升,在靈活性與高性能之間尋找到了較為理想平衡點。我們在PaddleX開發(fā)套件里選取了超過 60模型進行實驗,使用CINN編譯器后超60%模型有顯著性能提升,平均提升達 27.4%。重點模型相比PyTorch開啟編譯優(yōu)化后的版本平均快18.4%。

神經(jīng)網(wǎng)絡編譯器CINN訓練速度對比
五、標準化統(tǒng)一硬件適配,加速軟硬協(xié)同優(yōu)化
在深度學習的創(chuàng)新探索與產(chǎn)業(yè)落地進程中,單一芯片往往難以滿足復雜多變的業(yè)務需求,因此通常需要融合運用多種芯片來構建解決方案。大模型應用對于算力的需求極為龐大,而單一芯片的供應數(shù)量有限,遠不足以支撐大模型的高效運行。不僅如此,不同場景對芯片性能有著差異化的嚴苛要求,單一芯片更是難以全面滿足。例如,在大模型訓練場景中,需要芯片具備大顯存、高帶寬以及高可靠性的特性;自動駕駛場景則強調(diào)低時延與高可靠性,以保障行車安全;端側場景則聚焦于低功耗,以延長設備的續(xù)航時間。
飛槳框架自發(fā)布之初就考慮了多硬件適配的需求,歷經(jīng)持續(xù)迭代與演進,3.0版本構建了一套成熟且完善的多硬件統(tǒng)一適配方案:
1)飛槳聚焦于硬件接口的抽象。飛槳將硬件接口細分為設備管理、計算執(zhí)行、分布式通信等多個類別,通過標準化的硬件接口成功屏蔽了不同芯片軟件棧開發(fā)接口之間的差異。通過合理的抽象,減少了適配所需的接口數(shù)量,以昇騰芯片適配為例,初步跑通所需適配接口數(shù)比PyTorch方案減少56%,適配代碼量減少80%。
2)基于標準化適配接口的定義,飛槳實現(xiàn)了松耦合、可插拔的架構。在此架構下,每類芯片僅需提供標準化適配接口的具體實現(xiàn),便能輕松融入飛槳后端,極大地簡化了芯片接入的流程。
3)考慮到不同芯片軟件棧成熟度的差異,飛槳提供了豐富多樣的接入方式,涵蓋算子開發(fā)、算子映射、圖接入、編譯器接入等。針對大模型訓練與推理需求,飛槳還具備全棧優(yōu)化能力,如支持動靜統(tǒng)一編程范式、超大規(guī)模分布式訓練技術,提高了模型開發(fā)與部署效率。
4)飛槳與芯片廠商攜手合作,共同構建了官方代碼合入機制、例行發(fā)版機制和持續(xù)集成測試等研發(fā)基礎設施,還建立了日級別例行功能與精度監(jiān)測,保障開發(fā)者使用體驗。
這些舉措提升了研發(fā)效率,確保飛槳與各類芯片的適配工作高效、穩(wěn)定推進。

多硬件統(tǒng)一適配方案
基于前述技術,飛槳與芯片廠商緊密合作,攜手共建蓬勃發(fā)展的硬件生態(tài),當前飛槳已與超過40家成員單位開展合作,適配超過60個芯片系列。飛槳已與24家硬件廠商伙伴達成深度合作,共同推出了飛槳生態(tài)發(fā)行版。飛槳能夠有效屏蔽底層硬件之間復雜多樣的差異,為開發(fā)者提供簡潔易用的開發(fā)接口。開發(fā)者只需編寫一份代碼,就可以讓程序在不同芯片上順暢運行,輕松實現(xiàn)業(yè)務的跨芯片遷移。飛槳的跨平臺能力為業(yè)務在芯片選擇方面帶來了前所未有的靈活性,使開發(fā)者能夠根據(jù)實際需求,更加自由、高效地規(guī)劃業(yè)務部署。
總結
飛槳框架3.0面向大模型、異構多芯進行專屬設計,向下適配異構多芯,充分釋放硬件潛能;向上一體化支撐大模型的開發(fā)、訓練、壓縮、推理、部署全流程,并助力科學前沿探索。具備動靜統(tǒng)一自動并行、大模型訓推一體、科學計算高階微分、神經(jīng)網(wǎng)絡編譯器、異構多芯適配五大新特性。
1)動靜統(tǒng)一自動并行:用戶只需在單卡程序上進行少量的張量切分標記,飛槳就能將其自動轉換為并行訓練程序,大幅度降低了產(chǎn)業(yè)開發(fā)和訓練的成本,使開發(fā)者能夠更專注于模型和算法的創(chuàng)新。
2)大模型訓推一體:同一套框架支持訓練和推理,實現(xiàn)訓練、推理代碼復用和無縫銜接,為大模型的全流程提供了統(tǒng)一的開發(fā)體驗和極致的訓練效率,為產(chǎn)業(yè)提供了極致的開發(fā)體驗。
3)科學計算高階微分:科學計算提供了高階自動微分、復數(shù)運算、傅里葉變換、編譯優(yōu)化、分布式訓練等能力支撐,支持數(shù)學、力學、材料、氣象、生物等領域科學探索,微分方程求解速度比PyTorch開啟編譯器優(yōu)化后的2.6版本平均快115%。
4)神經(jīng)網(wǎng)絡編譯器:采用與框架一體化的設計,能夠支持生成式模型、科學計算模型等多種模型的高效訓練與可變形狀推理,在計算靈活性與高性能之間提供了良好的平衡點,顯著降低了性能優(yōu)化的成本。
5)異構多芯適配:構建了一套成熟且完善的多硬件統(tǒng)一適配方案,通過標準化接口屏蔽了不同芯片軟件棧開發(fā)接口差異,實現(xiàn)可插拔架構,提供多種接入方式和基礎設施,支撐硬件廠商合入4001個PR,包括26584個commits。
飛槳框架3.0將為開發(fā)者提供一個“動靜統(tǒng)一、訓推一體、自動并行、自動優(yōu)化、廣泛硬件適配”的深度學習框架,開發(fā)者可以像寫單機代碼一樣寫分布式代碼,無需感知復雜的通信和調(diào)度邏輯,即可實現(xiàn)大模型的開發(fā);可以像寫數(shù)學公式一樣用Python語言寫神經(jīng)網(wǎng)絡,無需使用硬件開發(fā)語言編寫復雜的算子內(nèi)核代碼,即可實現(xiàn)高效運行。目前3.0正式版本已面向開發(fā)者開放,并且兼容2.0版本的開發(fā)接口,非常歡迎廣大開發(fā)者使用和反饋。
官方活動
直播課程:4月8日(下周二)晚7點,百度杰出架構師直播詳解飛槳新一代框架3.0的強大能力及技術實現(xiàn)!
有獎測評:飛槳框架3.0正式版現(xiàn)已全面開放,誠邀廣大用戶體驗使用!在技術網(wǎng)站發(fā)布本人真實的測評報告/使用tips/實際場景應用實例等經(jīng)驗帖,并提交到官方(下方海報二維碼),通過驗收的高質(zhì)量測評可獲得最高千元激勵金。
傳送門:開始安裝
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/develop/install/pip/linux-pip.html
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18