科大訊飛高建清:「底座+能力+應(yīng)用」是科大訊飛AIGC整體布局的三層架構(gòu)|中國AIGC產(chǎn)業(yè)峰會(huì)
ChatGPT引發(fā)的創(chuàng)新,讓AI在邏輯推理、文本生成上都有了很大的進(jìn)步
明敏 整理自 凹非寺
量子位 | 公眾號(hào) QbitAI
ChatGPT掀起AIGC浪潮后,關(guān)于它的影響,成為了行業(yè)內(nèi)外最為熱議的話題之一。
宏觀的觀點(diǎn)已不勝枚舉:改變世界、AI的iPhone時(shí)刻……
但如果回歸到技術(shù)本質(zhì),它到底會(huì)帶來哪些變革?
我們認(rèn)為,它會(huì)改變信息分發(fā)獲取的模式。革新內(nèi)容生產(chǎn)模式,變革人機(jī)交互模式,同時(shí)也會(huì)促進(jìn)多個(gè)產(chǎn)業(yè)的升級(jí)。
這是科大訊飛AI研究院常務(wù)副院長高建清,在首屆中國AIGC產(chǎn)業(yè)峰會(huì)上給出的答案。

作為國產(chǎn)AI的中堅(jiān)力量,在這股最新趨勢(shì)下,科大訊飛始終被寄予厚望。
尤其在2月初,他們率先給出類ChatGPT技術(shù)與產(chǎn)品跟進(jìn)情況及定檔時(shí)間,更是把行業(yè)內(nèi)外的期待值拉滿了。
具體如何?還得5月6日見分曉。
但提前劇透已經(jīng)來了。
在首屆中國AIGC峰會(huì)現(xiàn)場(chǎng),在語音識(shí)別、語音合成、自然語言理解等領(lǐng)域擁有深厚積累和成果的科大訊飛AI研究院常務(wù)副院長高建清,分享了科大訊飛對(duì)于AIGC趨勢(shì)的理解、技術(shù)進(jìn)展、產(chǎn)品應(yīng)用,以及認(rèn)知智能大模型相關(guān)思考等內(nèi)容。
為了完整體現(xiàn)他的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)其演講內(nèi)容進(jìn)行了編輯整理,以饗讀者。
中國 AIGC 產(chǎn)業(yè)峰會(huì)是由量子位主辦的行業(yè)峰會(huì),近 20 位產(chǎn)業(yè)代表與會(huì)討論。線下參與觀眾 600+,線上收看觀眾近 300 萬,得到了包括 CCTV2、BTV 等在內(nèi)的數(shù)十家媒體的廣泛報(bào)道關(guān)注。
演講要點(diǎn)
- “底座+能力+應(yīng)用”是科大訊飛AIGC整體布局的三層架構(gòu)。
- 語音合成將會(huì)向著交互更加擬人化、情感化、口語化的方向發(fā)展,并且要控制好音色、音律、口音等語義信息。
- ChatGPT引發(fā)的創(chuàng)新,讓AI在邏輯推理、多角色、多風(fēng)格文本生成上都有了巨大進(jìn)步。
- 大模型會(huì)改變信息分發(fā)獲取的模式,并給內(nèi)容生產(chǎn)模式、人機(jī)交互帶來變革。
以下為高建清演講全文:
音頻創(chuàng)作也會(huì)向大模型方向發(fā)展
非常榮幸能有這樣的機(jī)會(huì)和大家分享科大訊飛在AIGC方面的技術(shù)探索與應(yīng)用創(chuàng)新方面的一些進(jìn)展。
如下是科大訊飛在整個(gè)AIGC領(lǐng)域的布局情況。

科大訊飛在AIGC的三大模塊:音頻創(chuàng)作、視覺創(chuàng)作和文本創(chuàng)作,都有一些自己的理解和進(jìn)展。
在音頻創(chuàng)作方面,訊飛是一家以語音起家的公司,我們?cè)谝纛l創(chuàng)作方面有語音合成的全棧能力;在視覺創(chuàng)作方面,積累了以虛擬人為核心的完整視頻創(chuàng)作能力;在文本生成方面,訊飛這些年主要圍繞行業(yè)應(yīng)用做了很多工作。
今天將主要圍繞這三個(gè)方面展開介紹。
首先看一下音頻創(chuàng)作。
在這一領(lǐng)域,我們認(rèn)為最重要的技術(shù)之一是語音合成。
現(xiàn)階段,播報(bào)式的語音合成已經(jīng)接近或達(dá)到真人水平,接下來的發(fā)展趨勢(shì)是什么?
我們認(rèn)為,首要的發(fā)展趨勢(shì)是如何在交互領(lǐng)域?qū)崿F(xiàn)更好的擬人化、情感化以及口語化,總之讓它更像真人。
另外,在內(nèi)容生產(chǎn)領(lǐng)域,如何更好控制音色、音律、口音等語音里最重要的語義信息,也是一個(gè)重要的發(fā)展方向。

這兩年我們也在這些領(lǐng)域有了一些進(jìn)展。
首先是虛擬聲音自動(dòng)創(chuàng)作方面。
語音合成里,和聲音相關(guān)的兩個(gè)最主要元素:
- 第一是音色
- 第二是韻律信息
我們對(duì)這兩部分進(jìn)行顯示建模,這樣當(dāng)你給系統(tǒng)輸入一個(gè)人設(shè)時(shí),比如青年甜美的女聲,就可以生成對(duì)應(yīng)的音色。
目前我們通過這一技術(shù)已經(jīng)虛擬生成了500個(gè)聲音,并在訊飛開放平臺(tái)上開放。在滿分為5.0MOS分的情況下,我們生成的聲音超過4.0MOS分,已經(jīng)達(dá)到了可用的階段,有了這種虛擬生成聲音的方式,大家可以選擇生成喜歡的一些聲音。

第二方面,怎樣向多情感、多風(fēng)格方面拓展?
去年,科大訊飛發(fā)布了全新的語音合成系統(tǒng),即多情感多風(fēng)格SMART-TTS系統(tǒng)。
這是一個(gè)端到端的方案,輸入文本直接得到語音輸出。其中有三個(gè)關(guān)鍵模塊,第一是跨模態(tài)預(yù)訓(xùn)練,第二是韻律預(yù)訓(xùn)練,第三是聲學(xué)預(yù)訓(xùn)練。三部分各司其職。
第一個(gè)模塊可以提高語音合成中韻律的自然度;第二個(gè)模塊是一個(gè)中間模塊;最后一個(gè)模塊可以提高聲音整體的音質(zhì)。
通過這樣一個(gè)系統(tǒng)合成的聲音,和專業(yè)聲音演員錄音水平的差距0.05MOS,已經(jīng)取得了非常好的進(jìn)展。
MOS是Mean Opnion Score的縮寫,譯為平均意見得分,是音頻質(zhì)量主觀評(píng)估方法的一種。在語音合成領(lǐng)域,常見的有自然度MOS(MOS of naturalness),相似度MOS(MOS of similarity)。

在這個(gè)系統(tǒng)中,我們還拓展了多個(gè)風(fēng)格。
以往大家熟悉的語音合成主要用于播報(bào)、交互等領(lǐng)域,現(xiàn)在我們可以支持紀(jì)錄片、游戲解說、廣告直播等十多個(gè)領(lǐng)域。
同時(shí),語音的情感能得到控制,SMART-TTS提供11種情感,每個(gè)情感有20檔調(diào)節(jié)能力。我們發(fā)現(xiàn),停頓、重音、語速等關(guān)鍵屬性對(duì)于聲音的表現(xiàn)力非常重要,這些也可以進(jìn)行調(diào)節(jié)。我們也將這些能力開放給開發(fā)者,讓大家都能創(chuàng)造并得到想要的聲音。

可以看到,近年來聲音合成已經(jīng)不是傳統(tǒng)意義上的播報(bào)、機(jī)器風(fēng)格,已經(jīng)向多感情、更多場(chǎng)景去拓展。
接下來音頻創(chuàng)作會(huì)向什么方向發(fā)展?
我們認(rèn)為有兩個(gè)大方向:
第一,大家今天談?wù)撟疃嗟氖谴笳Z言模型。在聲音領(lǐng)域,大語言模型也是一個(gè)重要方向,ChatGPT給聲音創(chuàng)作領(lǐng)域帶了很多啟示。
如果我們用Audio大語言模型方案,有可能對(duì)語音合成中的一些關(guān)鍵因素,比如口音、韻律等特征,進(jìn)行很好的控制。
另外就是聲音藝術(shù)。其實(shí)現(xiàn)在追求的不僅是聲音能夠表達(dá)意思,而是怎樣能從自然可懂到悅耳享受。比如在聲音中插入音效、環(huán)境音,會(huì)對(duì)整個(gè)語音合成的感受有很大改善。

5月發(fā)布大模型新成果
接下來來看第二部分,即科大訊飛在視覺創(chuàng)作方面的一些進(jìn)展。
在虛擬人多模態(tài)合成方面,科大訊飛從2018年首發(fā)多語種虛擬人口唇驅(qū)動(dòng),2021年發(fā)布了2D真人捏臉系統(tǒng)。目前已經(jīng)形成了3D虛擬口唇表情和動(dòng)作的AI驅(qū)動(dòng)到AI貫穿3D形象構(gòu)建的全流程。
首先看一下虛擬人領(lǐng)域的關(guān)鍵技術(shù)——動(dòng)作生成。
眾所周知肢體語言對(duì)虛擬人來說非常關(guān)鍵,業(yè)界傳統(tǒng)方法是采用動(dòng)作庫。
要知道,動(dòng)作生成和兩個(gè)因素有很大關(guān)系:
- 第一是語音發(fā)音中的韻律節(jié)奏
- 第二是動(dòng)作意圖
針對(duì)這兩部分進(jìn)行建模,能夠很好實(shí)現(xiàn)動(dòng)作合成,訊飛研究院提出的語義驅(qū)動(dòng)虛擬人動(dòng)作技術(shù),在虛擬人動(dòng)作的擬人度和契合度方面,都較傳統(tǒng)方案有很大改善,從2.63分提升到3.75分左右。

第二個(gè)方面也一樣,我們希望實(shí)現(xiàn)語音可控的半身數(shù)字人像生成。
通過文本語義約束的人像語義空間構(gòu)建、基于擴(kuò)散模型的人像語義向量生成兩個(gè)階段,輸入一個(gè)人設(shè),就能動(dòng)態(tài)生成下圖右邊這些圖像。這些圖像是半身數(shù)字人的形象。

最后一個(gè)虛擬人的關(guān)鍵因素就是3D虛擬人的動(dòng)態(tài)生成。
近兩年科大訊飛研究院打造了個(gè)性化3D虛擬人復(fù)刻系統(tǒng),實(shí)現(xiàn)了基于一張圖片、一段語音就能驅(qū)動(dòng)3D虛擬人,同時(shí)還支持3D虛擬人發(fā)型、眼睛、嘴型進(jìn)行動(dòng)態(tài)二次編輯。

在這些虛擬人技術(shù)的基礎(chǔ)上,我們?cè)诋a(chǎn)品方面也有一些探索。
訊飛音樂發(fā)布了AI虛擬歌手Luya,通過上述所說的音色創(chuàng)作技術(shù),給這個(gè)虛擬歌手賦予了一定聲音的能力。通過AI變聲以及歌曲合成,現(xiàn)在TA已經(jīng)發(fā)布了十多首歌曲,其中一些歌曲也得到了大眾的喜愛。

那么問題來了,虛擬人未來的發(fā)展趨勢(shì)是什么?
首先我們認(rèn)為,現(xiàn)在虛擬人制作過程中還有很多人工環(huán)節(jié),如果把AI能力融合進(jìn)去的話,全流程加入AI會(huì)解決很多問題。
另外AIGC這一兩年的發(fā)展速度非常迅猛,從文本到聲音到圖像,這些全棧能力的集合,讓我們覺得可以形成以虛擬人為中心的全棧視覺生成能力。

接下來,再看一下科大訊飛在AIGC方面產(chǎn)品創(chuàng)新的一些探索。
首先是我們推出了訊飛智作APP,這個(gè)APP結(jié)合了以上很多AIGC能力,希望能夠打造一個(gè)音視頻內(nèi)容的AI創(chuàng)作基地。
第二個(gè)是訊飛音樂的詞曲家平臺(tái)。
通過AI的輔助作詞作曲,可以幫助創(chuàng)作者提高生產(chǎn)力。通過歌曲試音及質(zhì)量分析,能夠使采買人和音樂人之間的溝通變得更加順暢。

最后再簡單介紹一下科大訊飛在文本生成方面的思考。
關(guān)于文本生成,我們?cè)诮逃?、醫(yī)療等行業(yè)應(yīng)用上做了很多工作。過往的一些進(jìn)展今天不做過多贅述,主要分享一下我們?cè)诖竽P突A(chǔ)能力上的一些理解和布局。
首先,ChatGPT基于所謂大語言模型,正是因?yàn)槟P蛿?shù)據(jù)量巨大,使得它對(duì)信息記憶非常完整。
第二個(gè)是它范式上的最大變化,是將以往NLP里面每一個(gè)任務(wù)進(jìn)行單獨(dú)建模,ChatGPT是典型多任務(wù)的對(duì)話式理解的建模,正是因?yàn)樗鼘?duì)多任務(wù)同時(shí)建模,使得模型在底層的語義理解能力極大增強(qiáng);
另外,它采用學(xué)習(xí)的方法,能夠?qū)⑷祟惙答伔浅:玫厝谌氲侥P椭小?/p>
正是這幾方面創(chuàng)新,讓AI在邏輯推理、多角色、多風(fēng)格文本生成等方面都有了很大進(jìn)步。
同時(shí),大模型也會(huì)給產(chǎn)業(yè)帶來非常大變革。
我們認(rèn)為它會(huì)改變信息分發(fā)、獲取模式,首先會(huì)給搜索引擎帶來非常大的影響,其次也會(huì)給內(nèi)容生產(chǎn)模式帶來革新;第三對(duì)于人機(jī)交互會(huì)產(chǎn)生一個(gè)大變革。

在這個(gè)趨勢(shì)下,科大訊飛在大模型方面也在開展一些工作。主要會(huì)基于我們對(duì)自身所在領(lǐng)域的理解,包括場(chǎng)景、數(shù)據(jù)、場(chǎng)景中的行為等方面,以及在教育、醫(yī)療、人機(jī)交互、辦公這些方向。
之前訊飛研究院也在認(rèn)知智能大模型上有一定積累和探索,5月6日我們也將有新的發(fā)布,敬請(qǐng)大家期待!

- 4o-mini華人領(lǐng)隊(duì)也離職了,這次不怪小扎2025-08-19
- 宇樹機(jī)器人“撞人逃逸”火到國外,王興興回應(yīng):下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進(jìn)化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領(lǐng)先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11