國產(chǎn)3D虛擬人版《Her》「殺向」迪拜
手握釘子,把AI當錘子使
衡宇 發(fā)自 Gitex
量子位 | 公眾號 QbitAI
好久沒出門,AI產(chǎn)品的世界已經(jīng)快進到這個樣子了?
在全球三大IT展之一的GITEX GLOBAL上,量子位在某個展臺,先后體驗了和Chatbot聊天、用AI創(chuàng)建屬于自己的3D數(shù)字人形象、和3D形象實時語言、肢體互動。
也就是說,《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘說了句:
看上去是三個功能體驗,但以后,這三個功能在產(chǎn)品里是要合并到一起的。
量子位還沒反應(yīng)過來,展商又補了一句:
創(chuàng)立這些數(shù)字形象,是希望以后用戶下線后,ta們的數(shù)字形象還能接著在社區(qū)里幫ta們聊天,減少自己聊聊到不合適的好友浪費時間的情況。
啊……這……我……行吧,有了AI,和人聊天都有預(yù)制版了。

如果我說這家展商是個中國公司,也許不少朋友立馬能猜出來。
沒錯,它就是Soul。
量子位在現(xiàn)場拉著Soul的工作人員大聊特聊了一番,其中不僅僅有Soul AI某子板塊負責人和他的組員,還被量子位捉到了這家公司的CTO陶明。

△Soul CTO陶明
這么好的機會,那還等什么?體驗完展臺互動,直接再安排庫庫一頓聊。
Gitex展會,Soul它Show了啥?
整個Soul的展位上,主要互動區(qū)擺著三塊體驗屏幕。
面向展位從左至右,分別可以體驗:
- 左邊屏幕:與自己創(chuàng)建的3D數(shù)字人流暢互動
- 中間屏幕:創(chuàng)建能語音文本對話、多語言交流的逼真3D數(shù)字人形象
- 右邊屏幕:和聊天機器人語音或文本聊天

量子位在這個展臺前站了很久,發(fā)現(xiàn)在此駐足的人,更喜歡體驗左邊和中間的兩個功能。
而且大家去Soul展臺體驗,仿佛有一個無形的規(guī)則,那就是選擇先在中間的屏幕前探索Soul的實時3D建模功能。
掰開了講,那就是現(xiàn)場拍一張體驗者的照片,在幾秒鐘的時間內(nèi),通過分析90多個面部形狀參數(shù)和6個屬性參數(shù),快速重建虛擬的面部特征,完成虛擬3D形象的生成。
然后,體驗者就可以與3D形象對話了。

但光有語言的交流還不夠——
到這個時候,大家就會(不自覺地)挪到左邊那塊屏幕前面。
屏幕上也是自己創(chuàng)造出的虛擬3D形象。基于實時的人體動作識別、數(shù)字還原以及多模態(tài)對話交互能力,現(xiàn)場可以實現(xiàn)3D虛擬人與真人的沉浸式互動。
多沉浸呢?由于配備了實時運動跟蹤,你可以說一些話or擺動身體、四肢,來與屏幕那頭的ta低延遲交互。

值得多提一嘴,得益于Soul自家多模態(tài)AI模型在背后的支持,這兩個屏幕承載的AI體驗,允許語音、文本和物理交互同時進行。
AI社交,場景、模型的認知與感知都很重要
盡管這家公司已經(jīng)推出了Soul海外版,但參加本次Gitex,其實是Soul在海外展會上的第一次亮相,
“從體驗層面來說,海外產(chǎn)品希望給用戶端創(chuàng)造更好的粘性。”Soul CTO陶明解釋道,“主要還是以Soul這個主平臺,來傳遞我們關(guān)于AIGC+社交的概念?!?/p>
陶明表示,以他所見,AI+社交這條賽道,無論國內(nèi)外市場,都要有兩個必要條件。
一,是要持續(xù)地繼續(xù)往前發(fā)展。
二,是探索的場景和業(yè)務(wù),其實現(xiàn)在還不是很明朗。
而Soul擁有的,是「人機對話」這個基礎(chǔ)點(或者稱為原子能力)?。
在Soul的理念中,因為用戶和業(yè)務(wù)之間其實存在鴻溝,所以要做的事不是把原子能力直接推向用戶,而是要建一個AI being和Human being共存的社區(qū)。
單點的聊天會在這個社區(qū)發(fā)生,但是社區(qū)無法靠單點聊天維持,“大模型六小強做的一些AI聊天產(chǎn)品,都有支持單點聊天的能力,但持續(xù)的聊天難以為繼,這就是因為任何AI不在場景里,人機單點聊天其實門檻很高?!?/p>
Soul更希望打造不同的場景(比如語聊房),利用一些規(guī)則和策略,讓人和AI在一起社交,過程難辨真人還是AI。
這里的社交不會局限在聊天這一件事情上,AI NPC和真人用戶共同做同一件事,也很容易構(gòu)建彼此之間的鏈接。
如陶明所說,Soul的AI+社交理念,最基礎(chǔ)的一點是“必須要保證人和AI在同一時空下”。類似于現(xiàn)實世界和現(xiàn)實世界的仿真,人和人的仿真對AI和人建立聯(lián)系非常重要。

“如果只是單純聊天這件事,不太成立……一定要要發(fā)現(xiàn)場景,才能夠說能讓用戶有更好的體驗?!?/p>
這一方面,Soul是怎么基于理念來設(shè)計產(chǎn)品的呢?
舉幾個例子。
第一個栗子,在人和人、人和AI的交互過程當中去打造更多的場景。
比如用戶和AI聊天,你發(fā)一張照片讓它知道你感冒了,然后就能圍繞感冒這個話題繼續(xù)對話,而不是非要硬找話題。
第二個栗子,和AI語音通話時,它聽到你周圍的環(huán)境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。
這就不難理解為什么Soul在大模型方面堅持GPT-4o的方向,因為團隊認為一個AI,應(yīng)當具有統(tǒng)一的感知能力和認知能力。
純有認知能力,并不能給用戶帶來價值,因為用戶是希望被感知到的。
而o1的方向同樣重要,因為o1加強了大模型的認知能力,其實就能給用戶帶來很好的體驗。
社交平臺做AI《Her》會有什么不一樣嗎?
在社交平臺這條賽道上,Soul是絕對的頭部梯隊玩家。很多人不知道的是,它也是國內(nèi)最早將AI融入社交互動的平臺之一。
App上線之初,Soul就開始搭建一些AI能力的基礎(chǔ)建設(shè),兩個基于AI的引擎。
一個是靈犀引擎,基于Soul用戶站內(nèi)全場景畫像的智能推薦系統(tǒng),通過AI技術(shù),持續(xù)挖掘有效特征,通過算法方式提高用戶在內(nèi)容方向的消費和互動體驗,提高用戶建立關(guān)系的效率和質(zhì)量。
另一個是NAWA引擎,為集AI、渲染與圖像處理于一體的集成化SDK,提供AR視頻技術(shù)、基于多模態(tài)感知與驅(qū)動的交互技術(shù)和基于重建的虛擬形象技術(shù),能夠輸出包含Avatar表情驅(qū)動、美顏美妝、卡通化等數(shù)十種圖像處理與2D/3D渲染能力的引擎。用它創(chuàng)建的個性化3D頭像表現(xiàn)力更強,還能動起來。
2020年(ChatGPT掀起大浪之前),Soul就開始啟動對AIGC相關(guān)的算法研發(fā)工作,并在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。
Soul在多模態(tài)領(lǐng)域發(fā)力很早,2023年Soul就推出自研垂類語言大模型Soul X,垂直應(yīng)用于平臺上多元社交互動場景。
例如智能對話機器人“AI茍蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什么的。
當時的Soul是這么說的:
AIGC帶給社交的不僅僅是交互效率、交互質(zhì)量和交互體驗的提升,同時以智能體和虛擬人為代表的交互對象也在發(fā)生變革,這意味著社交出現(xiàn)代際的迭代,社交的范圍也會被重新定義,社交產(chǎn)品的形態(tài)也在發(fā)生改變。
今年,Soul持續(xù)開搞“AIGC+社交”。
目標很明確:
在有技術(shù)能力基礎(chǔ)、有用戶實際需求、認準“模應(yīng)一體”方向的情況下,推動AIGC和社交場景的深度融合。
Soul推出了最新的端到端多模態(tài)AI模型,該模型集成了文本、語音和視覺交互,具備超低延遲、聲音擬真、情緒感知等特點。
端到端尤其顯著地降低了聊天的延遲。
陶明披露,Soul現(xiàn)在的語音對話延遲不到200毫秒,“這不再像以前那樣是一個連續(xù)的過程,我們首先生成文本和圖像,然后將它們轉(zhuǎn)換為語音?,F(xiàn)在,我們將語音和 NLP 統(tǒng)一到一個集成流程中,從而消除了滯后問題。”
而同時期的“數(shù)字孿生”功能,則允許用戶根據(jù)過去的交互或自定義設(shè)置,創(chuàng)建自己的個性化虛擬版本。
現(xiàn)在,剛剛在Gitex上秀了一把的Soul,又快宣布自己的新進展了。
陶明表示,預(yù)計到了11月,平臺將推出全雙工視頻通話能力, Soul的AI NPC就能“看得見了”。
也就是說,下個月,用戶們就能在Soul里實時和AI的視頻聊天了,對方還是有形象、有表情、有記憶,會對前幾天不經(jīng)意咳嗽過一句的你,說感冒好了沒有的那種。

這就很《Her》!
之前國內(nèi)外很多團隊都發(fā)過各種版本的《Her》,但這次的期待有所不同——
不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入AI元素的社交平臺公司,熟諳搞社交那一套,在這個人機交互的產(chǎn)品/功能上,會不會有特別的設(shè)計。
不過時間還沒到,只有先期待一波咯~
關(guān)于Gitex
Soul參加的這個海外展會,GITEX GLOBAL全球三大IT展之一,本周五在阿聯(lián)酋迪拜落下帷幕。
這是第44屆GITEX GLOBAL,不出意外創(chuàng)下新高,規(guī)模迄今為止最大:
吸引了超過6500家參展商、1800家初創(chuàng)企業(yè)、1200名投資者以及來自180多個國家的政府參與。

連迪拜王室也組團蒞臨現(xiàn)場視察……
這陣仗,讓本來就肩膀挨著肩膀的場館現(xiàn)場更是水泄不通了。

盡管如此,量子位還是拿出go shopping的激情,在二十幾個展館里一個挨一個地認真逛。
終于,不僅打卡了很多中國企業(yè)出海來參展的展臺,比如阿里、華為、騰訊、涂鴉智能、普渡機器人等等;
也看到了全球范圍內(nèi)很多AI公司的身影出現(xiàn)在現(xiàn)場,比如英國AI獨角獸Builder.ai(對沒錯,背后微軟支持,但創(chuàng)始人一直官司不斷的那家)、中國的智譜華章等。
當然,如果對電子方面感興趣的朋友們,一定會逛得更快樂,現(xiàn)場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設(shè)計(但中東土豪們肯定喜歡)的飛行器。

不簡單啊不簡單。
- 賣酒的茅臺要學(xué)AI了!和奔馳麥當勞一起拜師百度2025-08-17
- VLA進化后降維打擊!雙手揀貨,漂移操作,還能批量化秀舞,太空艙直接開上街,被銀河通用卷到了2025-08-11
- 硅谷AI大佬都在造末日地堡:小扎夏威夷修了465平米,奧特曼承認有加固地下室2025-08-08
- Qwen緊追OpenAI開源4B端側(cè)大模型,AIME25得分超越Claude 4 Opus2025-08-07