手機(jī)就能弄個3A級數(shù)字人!中國團(tuán)隊(duì)一套“乾坤大挪移”搞定
只需幾分鐘,人人都能專屬的那種
金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
想給自己搞個數(shù)字人,還得是3A級的那種?
現(xiàn)在,這個可以有。
而且只要一部手機(jī),幾分鐘就能搞定!
瞧,只需要先在手機(jī)上挑選一個人物模型:
然后對人物模型的細(xì)節(jié)做調(diào)整,例如眉毛的樣式、鼻子的大小高度等等:
就這樣簡單的點(diǎn)點(diǎn)、劃劃,一張數(shù)十萬面建模的高精度虛擬形象就創(chuàng)建出來了!
當(dāng)然,若是花上更多時(shí)間,從面部的其它細(xì)節(jié),到身材的比例,再到發(fā)型著裝等等,都可以一一調(diào)成你想要的樣子。
但若是光創(chuàng)建出來卻不能用,那這個數(shù)字分身也僅僅是個擺設(shè)罷了。
別急,那就打開手機(jī)的前置攝像頭,把你的表情和動作show出來,分分鐘就可以讓這個3A級數(shù)字人跟著你同步動起來。
(女裝大佬的福音?。?/p>
這便是來自中國團(tuán)隊(duì)的最新研發(fā)成果。
但有一說一,以前要是想搞個3A級數(shù)字人,那可真的是費(fèi)時(shí)費(fèi)力。
不僅打造的周期比較長,對設(shè)備的要求也是較為苛刻(主要價(jià)格還挺不菲)。
所以現(xiàn)在,打造3A級數(shù)字人,為什么會變得如此easy?
咋就變得人人都可用了?
一部手機(jī)就能搞的3A級數(shù)字人,怎么來的?
我們先來淺聊一下這套人手3A級數(shù)字人的“表面功夫”——數(shù)字人形象。
在渲染和運(yùn)行引擎方面,它主要基于的是Epic Games家的虛幻引擎(Unreal Engine,UE)。
目前許多做數(shù)字人的廠商,在底層引擎方面也都會選擇UE。
但這套3A級數(shù)字人的不同之處在于,它所運(yùn)行的環(huán)境得是每個人都在用的手機(jī)。
因此,為了不僅要適配這種情況,還得達(dá)到3A級別的畫質(zhì),團(tuán)隊(duì)在UE材質(zhì)模塊的基礎(chǔ)上,自研了逼真的材質(zhì)效果shader。
例如對毛發(fā)的各項(xiàng)異性、皮膚的3S(CG級別材質(zhì))表面散射、眼睛瞳孔的深度變化、毛孔細(xì)節(jié)的強(qiáng)弱變化等等,都做相應(yīng)的深度優(yōu)化。
而且為了讓捏臉在手機(jī)上變得“且快且方便”,團(tuán)隊(duì)還開發(fā)了特別靈活且高自由度的編輯工具。
就像我們剛才展示的那樣,“傻瓜式”點(diǎn)點(diǎn)、劃劃,就能捏出來想要的效果了:
這套3A級數(shù)字人好上手之處,還在于它支持消費(fèi)級單目RGB攝像頭的AI驅(qū)動。
簡單來說,就是用你手機(jī)的前置攝像頭便可以搞定數(shù)字人的表情和動作驅(qū)動,而且還是實(shí)時(shí)的那種。
例如在人臉表情驅(qū)動方面,團(tuán)隊(duì)便通過人臉檢測、3D人臉重構(gòu)、AI等技術(shù),精準(zhǔn)地反饋人臉形狀、紋理、反射和表情權(quán)值等參數(shù)。
讓數(shù)字人在面部表情的驅(qū)動能夠達(dá)到實(shí)時(shí)且逼真。
同樣的,在動作驅(qū)動方面,也是可以對捕捉到的視頻進(jìn)行實(shí)時(shí)處理,并且得到連續(xù)穩(wěn)定的骨骼參數(shù)。
哪怕是快速、復(fù)雜的動作,也是可以精準(zhǔn)hold住。
……
但有一說一,若僅僅是這些形象上的“表面功夫”,要想讓3A級的數(shù)字人在手機(jī)上實(shí)時(shí)渲染和驅(qū)動起來,那可還真是有點(diǎn)天方夜譚了。
畢竟這要是“換算”到本地來實(shí)現(xiàn),對硬件設(shè)備要求的“打開方式”都得是這樣的:
高端PC機(jī)性能,CPU(2.6GHZ主頻、16線程),內(nèi)存64G,RTX3080顯卡,TB級存儲……
而且團(tuán)隊(duì)還說了,不僅要渲染一個3A級數(shù)字人,要在元宇宙里渲染數(shù)十萬甚至更多的數(shù)字人。
欲達(dá)此境,就不得不涉及團(tuán)隊(duì)的核心“殺手锏”功夫了。
一套“乾坤大挪移”,了解一下
話不多說,我們直接來揭曉答案:
云原生。
在他們看來,這是能夠讓所有普通用戶擁有3A級數(shù)字分身的唯一“解法”。
因?yàn)榻^大多數(shù)用戶使用的消費(fèi)級手機(jī)和PC,性能根本沒法滿足3A級數(shù)字人實(shí)時(shí)渲染和交互。
畢竟手機(jī)里可塞不了一張3080顯卡,就算能塞下,萬元起步的價(jià)格也確實(shí)讓人肉疼。
于是乎,團(tuán)隊(duì)便把所有的這些麻煩事,一套“乾坤大挪移”統(tǒng)統(tǒng)搬到云上去解決:
唯有如此,才能把3A級數(shù)字人變成消費(fèi)級這件事徹底打穿。
但這并不僅僅是“挪過去”那么簡單。
因?yàn)閿?shù)字人、元宇宙需要的云端環(huán)境,并不是傳統(tǒng)公有云就能直接上手解決的。
例如傳統(tǒng)公有云還是以CPU為主的計(jì)算模式和計(jì)算邏輯為核心,但面向未來的數(shù)字人和元宇宙,還需要視覺層面和圖形層面上發(fā)力。
若是歸攏一下來看,二者的區(qū)別便一目了然了。:
- 傳統(tǒng)公有云:CPU+存儲+網(wǎng)絡(luò)
- 數(shù)字人/元宇宙的云:CPU+GPU(+DPU)+AI+存儲+網(wǎng)絡(luò)
那么具體的“解題步驟”,又該是怎樣的呢?
首先,面對復(fù)雜場景的不斷迭代,云原生技術(shù)體系也在時(shí)刻演進(jìn)中,例如從集中式中心場景到分布式的邊緣場景拓展。
邊緣計(jì)算基礎(chǔ)設(shè)施,便成為了“解題步驟”之一。
為此,團(tuán)隊(duì)自建了云游戲領(lǐng)域最大的邊緣計(jì)算網(wǎng)絡(luò):
- 在覆蓋全國的三十多個邊緣IDC中,放置了數(shù)萬臺自研服務(wù)器。
- 并將自建的三十余個邊緣IDC率先升級至100G。
如此一來,哪怕是面對千萬級的實(shí)例,也能夠輕松駕馭;并且邊緣節(jié)點(diǎn)100G的升級,也可以應(yīng)對高速增長的傳輸和存儲壓力。
除此之外,還需要應(yīng)對大帶寬超低延遲傳輸的實(shí)時(shí)流媒體傳輸技術(shù),在傳輸系統(tǒng)層面來“解題”。
例如基于GAN的AI自適應(yīng)FEC算法,可以優(yōu)化FEC緩沖和編碼實(shí)現(xiàn)機(jī)制,在延時(shí)和丟包場景下尋找最佳平衡點(diǎn)。
在整體帶寬增加不超過5%的情況下,該算法可以讓流暢度提升80%。
再如UDP+TCP雙通道傳輸策略,在復(fù)雜弱網(wǎng)場景下,結(jié)合UDP低延時(shí)和TCP高可靠的特性,可以將連通率提升到99.9%。
以及智能動態(tài)分辨率算法,可以在帶寬有限、網(wǎng)絡(luò)不穩(wěn)定的情況下,讓畫質(zhì)提升1.2倍以上。
但隨著基礎(chǔ)設(shè)施等條件的優(yōu)化,再上面的平臺層也成了老大難的問題。
因?yàn)樵谌绱她嫶笙到y(tǒng)的實(shí)施過程中,資源如何調(diào)度,計(jì)算和存儲又該如何分離等問題也會接踵而至。
為此,團(tuán)隊(duì)自研了分布式百萬容器的管理平臺來應(yīng)對。
而細(xì)分?jǐn)?shù)字人和元宇宙場景,團(tuán)隊(duì)做出的“解法”是行業(yè)內(nèi)首個UEdocker的大規(guī)模分布式實(shí)施。
如此一來,在全國實(shí)時(shí)渲染邊緣計(jì)算節(jié)點(diǎn),以及百萬級的分布式UEDocker實(shí)例的加持之下,用戶就可以就近接入,而且是超低時(shí)延和超高精度的那種。
……
這便是“乾坤大挪移”打法的奧義所在。
而也唯有通過這種云原生的方式,才能夠支撐在邊緣端的元宇宙里,同時(shí)渲染并實(shí)時(shí)交互數(shù)十萬乃至數(shù)百萬3A級數(shù)字人的這種需求。
背后的中國團(tuán)隊(duì)
至此,也是時(shí)候揭曉這家中國團(tuán)隊(duì)的廬山真面目了。
它便是于2016年成立的實(shí)時(shí)互動內(nèi)容云計(jì)算服務(wù)商——海馬云。
在短短成立7年時(shí)間里,海馬云已經(jīng)在業(yè)內(nèi)取得的成績可謂是斐然。
就在今年3月,根據(jù)IDC和信通院聯(lián)合發(fā)布的《全球云游戲產(chǎn)業(yè)深度觀察及趨勢研判研究報(bào)告(2022年)》顯示:
海馬云已覆蓋行業(yè)90%以上頭部客戶,每月為超過3500萬活躍用戶提供云游戲計(jì)算服務(wù)。
并且在云游戲算力及解決方案中的市場份額,也已經(jīng)達(dá)到了53%,穩(wěn)居國內(nèi)第一。
而在這份報(bào)告中的描述中,“自研”成為了海馬云非常醒目的標(biāo)簽。
例如在2016年成立開始,海馬云便自研了高密度ARM陣列服務(wù)器,后期又深度定制了基于高端顯卡的X86服務(wù)器。
這使得海馬云能夠在大幅提高多路并行GPU渲染性的同時(shí),實(shí)現(xiàn)畫質(zhì)上的提升。
加之剛才提到的率先將邊緣IDC提升至100G,以及平臺層上超大規(guī)模容器調(diào)度管理系統(tǒng)、實(shí)數(shù)互動流媒體傳輸?shù)饶芰?,使得海馬云成為業(yè)內(nèi)唯一能提供高性能云端算力的基礎(chǔ)上又保持高性價(jià)比服務(wù)的廠商。
那么接下來的一個問題便是——為何要入局元宇宙、數(shù)字人賽道?
首先站在當(dāng)下互聯(lián)網(wǎng)的發(fā)展節(jié)點(diǎn)來看,毋庸置疑的一點(diǎn)便是元宇宙是發(fā)展的一個大趨勢。
正如全球巨頭Facebook直接改名為Meta,微軟、谷歌以及國內(nèi)科技大廠紛紛入局并發(fā)力于此。
并且元宇宙已經(jīng)在開始改變著直播、游戲、開會等方式,甚至對營銷、廣告、藝術(shù)以及科技在產(chǎn)生著潛移默化的影響。
而海馬云CEO黨勁峰對這種虛擬世界和現(xiàn)實(shí)世界結(jié)合的過程,有著一個堅(jiān)定的信念:
如果可以用元宇宙來描述未來的互聯(lián)網(wǎng),要想讓全球幾十億人都進(jìn)入元宇宙虛實(shí)融合的世界,那么所有實(shí)時(shí)互動的內(nèi)容,都應(yīng)該在云上。
而這,正是海馬云多年來所深耕且熟知的領(lǐng)域。
至于為何選擇細(xì)分的數(shù)字人賽道,黨勁峰表示:
我們一直在打造面向?qū)崟r(shí)互動內(nèi)容的云計(jì)算核心的基礎(chǔ)設(shè)施平臺和軟件能力平臺,希望通過我們底層的能力和優(yōu)勢,可以為消費(fèi)者提供在普通終端上就能享受3A級別的高質(zhì)量體驗(yàn)。
不難看出,海馬云所要做的依舊是產(chǎn)業(yè)離不開的一個話題——降本增效。
從目前結(jié)果來看,海馬元已經(jīng)實(shí)現(xiàn)了讓3A級數(shù)字人“普惠”的目標(biāo),那么接下來的一步,有該如何前行?
海馬云表示:
我們希望進(jìn)一步把服務(wù)能力從數(shù)字人應(yīng)用拓展到整個互動場景生態(tài)。
無論是娛樂社交、電商直播、文化旅行,還是廣告營銷、企業(yè)辦公,都希望能夠是電影級的高品質(zhì)場景。
最后,正所謂好不好用還得用了再說。
海馬云目前已經(jīng)開放了Beta預(yù)覽版PC端的體驗(yàn)入口(手機(jī)端也在路上啦~),快戳下方鏈接或點(diǎn)擊文末“閱讀原文”,在電腦上去試試吧:
https://www.haimacloud.com/ProductDigiHuman/
- 商湯林達(dá)華萬字長文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08