火山引擎項亮揭秘字節(jié)跳動基于 HPC 大規(guī)模機器學習技術|直播報名
將 GPU 的資源利用率加速到 90% 以上
機器學習是當前領先的 AI 范式,到目前為止取得了非??捎^的成就,當前機器學習也是一個非常時髦的話題。
2021 年 12 月火山引擎云產品發(fā)布會上正式發(fā)布了?AI 全系產品,其中的 AI 開發(fā)平臺就是全流程、高效率、高性能的機器學習平臺。該平臺提供從數(shù)據(jù)準備到模型訓練、再到推理整個服務;通過 RDMA 網(wǎng)絡直連上萬張 GPU 和自研的分布式訓練框架,可以將 GPU 的資源利用率加速到 90% 以上,極大提升性能的同時降低了使用成本;提供完善的工具鏈、全功能在線的 IDE,包括端云協(xié)同的開發(fā)環(huán)境,以及本地 AI 代碼一鍵上云,實現(xiàn)極致的開發(fā)體驗。
在這次發(fā)布會上,?火山引擎機器學習系統(tǒng)負責人項亮也首次向外界分享了火山引擎推薦系統(tǒng)的技術演進和應用實踐。項亮在分享中提到,搭建整個推薦系統(tǒng)是非常消耗資源的事情。而火山引擎的智能推薦平臺,可以做到直接提升你想提升的業(yè)務目標,模型可以直接預估這個目標,最終結果按照預估的結果排。先把目標定下來,剩下的都是機器學習的事情?;鹕揭鏅C器學習平臺的核心目標就是降低算法開發(fā)門檻,實現(xiàn)規(guī)?;瘧?。
源于字節(jié)跳動業(yè)務打磨的機器學習技術,火山引擎機器學習平臺是如何設計的?在實現(xiàn)過程中又有哪些挑戰(zhàn)?
4 月 14 日晚間 19:30-21:00,火山引擎開發(fā)者社區(qū)技術大講堂第一期將為大家揭秘字節(jié)跳動基于 HPC 的大規(guī)模機器學習技術,技術負責人項亮開深度分享機器學習平臺架構與實踐,與廣大開發(fā)者互動。同時,承載機器學習平臺的超大規(guī)模 HPC 基礎設施也將首度在社區(qū)分享。
《火山引擎大規(guī)模機器學習平臺架構設計與應用實踐》
項亮| 火山引擎機器學習系統(tǒng)負責人
本次分享將圍繞數(shù)據(jù)加速、模型分布式訓練框架建設、大規(guī)模異構集群調度、模型開發(fā)過程標準化等 AI 工程化實踐,全面介紹如何以開發(fā)者的極致體驗為核心,進行機器學習平臺的設計與實現(xiàn),帶大家了解當前機器學習應用落地過程中的挑戰(zhàn)以及火山引擎如何應對這些挑戰(zhàn)。
分享主要內容:
- 機器學習應用開發(fā)過程中的挑戰(zhàn)
- 火山引擎機器學習平臺的架構
- 字節(jié)跳動內部及行業(yè)頭部客戶的機器學習應用實踐案例
《大規(guī)模高性能計算集群架構及優(yōu)化實踐》
葉璐|火山引擎云計算研發(fā)工程師
馮瑞青|火山引擎云計算研發(fā)工程師
隨著機器學習的發(fā)展,數(shù)據(jù)量和訓練模型都有越來越大的趨勢,這對基礎設施有了更高的要求,包括硬件、網(wǎng)絡架構等。本次分享將主要介紹火山引擎支撐大規(guī)模高性能計算集群的架構和優(yōu)化實踐,帶大家了解火山引擎支撐大規(guī)模高性能計算集群的架構和優(yōu)化實踐。
分享主要內容:
- 模型訓練的趨勢及對基礎設施的要求
- 火山引擎高性能計算實例相關產品介紹及平臺架構
- 支撐超大規(guī)模訓練的 RDMA 網(wǎng)絡架構和優(yōu)化
- 字節(jié)跳動內部及合作伙伴的業(yè)務實踐
- 超詳細!2025科技創(chuàng)變者大會最新議程公布!2025-08-21
- 中科慧遠發(fā)布CASIVIBOT,以九年積累開啟AOI與機器人協(xié)同的品質檢測新時代2025-08-20
- 嚯!剛剛,張麻子陪我玩黑猴了2025-08-19
- 機器人全產業(yè)鏈接會 FAIR plus 2026媒體見面會在京召開2025-08-16