科大訊飛高建清:「底座+能力+應用」是科大訊飛AIGC整體布局的三層架構|中國AIGC產(chǎn)業(yè)峰會
ChatGPT引發(fā)的創(chuàng)新,讓AI在邏輯推理、文本生成上都有了很大的進步
明敏 整理自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT掀起AIGC浪潮后,關于它的影響,成為了行業(yè)內外最為熱議的話題之一。
宏觀的觀點已不勝枚舉:改變世界、AI的iPhone時刻……
但如果回歸到技術本質,它到底會帶來哪些變革?
我們認為,它會改變信息分發(fā)獲取的模式。革新內容生產(chǎn)模式,變革人機交互模式,同時也會促進多個產(chǎn)業(yè)的升級。
這是科大訊飛AI研究院常務副院長高建清,在首屆中國AIGC產(chǎn)業(yè)峰會上給出的答案。

作為國產(chǎn)AI的中堅力量,在這股最新趨勢下,科大訊飛始終被寄予厚望。
尤其在2月初,他們率先給出類ChatGPT技術與產(chǎn)品跟進情況及定檔時間,更是把行業(yè)內外的期待值拉滿了。
具體如何?還得5月6日見分曉。
但提前劇透已經(jīng)來了。
在首屆中國AIGC峰會現(xiàn)場,在語音識別、語音合成、自然語言理解等領域擁有深厚積累和成果的科大訊飛AI研究院常務副院長高建清,分享了科大訊飛對于AIGC趨勢的理解、技術進展、產(chǎn)品應用,以及認知智能大模型相關思考等內容。
為了完整體現(xiàn)他的思考,在不改變原意的基礎上,量子位對其演講內容進行了編輯整理,以饗讀者。
中國 AIGC 產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會,近 20 位產(chǎn)業(yè)代表與會討論。線下參與觀眾 600+,線上收看觀眾近 300 萬,得到了包括 CCTV2、BTV 等在內的數(shù)十家媒體的廣泛報道關注。
演講要點
- “底座+能力+應用”是科大訊飛AIGC整體布局的三層架構。
- 語音合成將會向著交互更加擬人化、情感化、口語化的方向發(fā)展,并且要控制好音色、音律、口音等語義信息。
- ChatGPT引發(fā)的創(chuàng)新,讓AI在邏輯推理、多角色、多風格文本生成上都有了巨大進步。
- 大模型會改變信息分發(fā)獲取的模式,并給內容生產(chǎn)模式、人機交互帶來變革。
以下為高建清演講全文:
音頻創(chuàng)作也會向大模型方向發(fā)展
非常榮幸能有這樣的機會和大家分享科大訊飛在AIGC方面的技術探索與應用創(chuàng)新方面的一些進展。
如下是科大訊飛在整個AIGC領域的布局情況。

科大訊飛在AIGC的三大模塊:音頻創(chuàng)作、視覺創(chuàng)作和文本創(chuàng)作,都有一些自己的理解和進展。
在音頻創(chuàng)作方面,訊飛是一家以語音起家的公司,我們在音頻創(chuàng)作方面有語音合成的全棧能力;在視覺創(chuàng)作方面,積累了以虛擬人為核心的完整視頻創(chuàng)作能力;在文本生成方面,訊飛這些年主要圍繞行業(yè)應用做了很多工作。
今天將主要圍繞這三個方面展開介紹。
首先看一下音頻創(chuàng)作。
在這一領域,我們認為最重要的技術之一是語音合成。
現(xiàn)階段,播報式的語音合成已經(jīng)接近或達到真人水平,接下來的發(fā)展趨勢是什么?
我們認為,首要的發(fā)展趨勢是如何在交互領域實現(xiàn)更好的擬人化、情感化以及口語化,總之讓它更像真人。
另外,在內容生產(chǎn)領域,如何更好控制音色、音律、口音等語音里最重要的語義信息,也是一個重要的發(fā)展方向。

這兩年我們也在這些領域有了一些進展。
首先是虛擬聲音自動創(chuàng)作方面。
語音合成里,和聲音相關的兩個最主要元素:
- 第一是音色
- 第二是韻律信息
我們對這兩部分進行顯示建模,這樣當你給系統(tǒng)輸入一個人設時,比如青年甜美的女聲,就可以生成對應的音色。
目前我們通過這一技術已經(jīng)虛擬生成了500個聲音,并在訊飛開放平臺上開放。在滿分為5.0MOS分的情況下,我們生成的聲音超過4.0MOS分,已經(jīng)達到了可用的階段,有了這種虛擬生成聲音的方式,大家可以選擇生成喜歡的一些聲音。

第二方面,怎樣向多情感、多風格方面拓展?
去年,科大訊飛發(fā)布了全新的語音合成系統(tǒng),即多情感多風格SMART-TTS系統(tǒng)。
這是一個端到端的方案,輸入文本直接得到語音輸出。其中有三個關鍵模塊,第一是跨模態(tài)預訓練,第二是韻律預訓練,第三是聲學預訓練。三部分各司其職。
第一個模塊可以提高語音合成中韻律的自然度;第二個模塊是一個中間模塊;最后一個模塊可以提高聲音整體的音質。
通過這樣一個系統(tǒng)合成的聲音,和專業(yè)聲音演員錄音水平的差距0.05MOS,已經(jīng)取得了非常好的進展。
MOS是Mean Opnion Score的縮寫,譯為平均意見得分,是音頻質量主觀評估方法的一種。在語音合成領域,常見的有自然度MOS(MOS of naturalness),相似度MOS(MOS of similarity)。

在這個系統(tǒng)中,我們還拓展了多個風格。
以往大家熟悉的語音合成主要用于播報、交互等領域,現(xiàn)在我們可以支持紀錄片、游戲解說、廣告直播等十多個領域。
同時,語音的情感能得到控制,SMART-TTS提供11種情感,每個情感有20檔調節(jié)能力。我們發(fā)現(xiàn),停頓、重音、語速等關鍵屬性對于聲音的表現(xiàn)力非常重要,這些也可以進行調節(jié)。我們也將這些能力開放給開發(fā)者,讓大家都能創(chuàng)造并得到想要的聲音。

可以看到,近年來聲音合成已經(jīng)不是傳統(tǒng)意義上的播報、機器風格,已經(jīng)向多感情、更多場景去拓展。
接下來音頻創(chuàng)作會向什么方向發(fā)展?
我們認為有兩個大方向:
第一,大家今天談論最多的是大語言模型。在聲音領域,大語言模型也是一個重要方向,ChatGPT給聲音創(chuàng)作領域帶了很多啟示。
如果我們用Audio大語言模型方案,有可能對語音合成中的一些關鍵因素,比如口音、韻律等特征,進行很好的控制。
另外就是聲音藝術。其實現(xiàn)在追求的不僅是聲音能夠表達意思,而是怎樣能從自然可懂到悅耳享受。比如在聲音中插入音效、環(huán)境音,會對整個語音合成的感受有很大改善。

5月發(fā)布大模型新成果
接下來來看第二部分,即科大訊飛在視覺創(chuàng)作方面的一些進展。
在虛擬人多模態(tài)合成方面,科大訊飛從2018年首發(fā)多語種虛擬人口唇驅動,2021年發(fā)布了2D真人捏臉系統(tǒng)。目前已經(jīng)形成了3D虛擬口唇表情和動作的AI驅動到AI貫穿3D形象構建的全流程。
首先看一下虛擬人領域的關鍵技術——動作生成。
眾所周知肢體語言對虛擬人來說非常關鍵,業(yè)界傳統(tǒng)方法是采用動作庫。
要知道,動作生成和兩個因素有很大關系:
- 第一是語音發(fā)音中的韻律節(jié)奏
- 第二是動作意圖
針對這兩部分進行建模,能夠很好實現(xiàn)動作合成,訊飛研究院提出的語義驅動虛擬人動作技術,在虛擬人動作的擬人度和契合度方面,都較傳統(tǒng)方案有很大改善,從2.63分提升到3.75分左右。

第二個方面也一樣,我們希望實現(xiàn)語音可控的半身數(shù)字人像生成。
通過文本語義約束的人像語義空間構建、基于擴散模型的人像語義向量生成兩個階段,輸入一個人設,就能動態(tài)生成下圖右邊這些圖像。這些圖像是半身數(shù)字人的形象。

最后一個虛擬人的關鍵因素就是3D虛擬人的動態(tài)生成。
近兩年科大訊飛研究院打造了個性化3D虛擬人復刻系統(tǒng),實現(xiàn)了基于一張圖片、一段語音就能驅動3D虛擬人,同時還支持3D虛擬人發(fā)型、眼睛、嘴型進行動態(tài)二次編輯。

在這些虛擬人技術的基礎上,我們在產(chǎn)品方面也有一些探索。
訊飛音樂發(fā)布了AI虛擬歌手Luya,通過上述所說的音色創(chuàng)作技術,給這個虛擬歌手賦予了一定聲音的能力。通過AI變聲以及歌曲合成,現(xiàn)在TA已經(jīng)發(fā)布了十多首歌曲,其中一些歌曲也得到了大眾的喜愛。

那么問題來了,虛擬人未來的發(fā)展趨勢是什么?
首先我們認為,現(xiàn)在虛擬人制作過程中還有很多人工環(huán)節(jié),如果把AI能力融合進去的話,全流程加入AI會解決很多問題。
另外AIGC這一兩年的發(fā)展速度非常迅猛,從文本到聲音到圖像,這些全棧能力的集合,讓我們覺得可以形成以虛擬人為中心的全棧視覺生成能力。

接下來,再看一下科大訊飛在AIGC方面產(chǎn)品創(chuàng)新的一些探索。
首先是我們推出了訊飛智作APP,這個APP結合了以上很多AIGC能力,希望能夠打造一個音視頻內容的AI創(chuàng)作基地。
第二個是訊飛音樂的詞曲家平臺。
通過AI的輔助作詞作曲,可以幫助創(chuàng)作者提高生產(chǎn)力。通過歌曲試音及質量分析,能夠使采買人和音樂人之間的溝通變得更加順暢。

最后再簡單介紹一下科大訊飛在文本生成方面的思考。
關于文本生成,我們在教育、醫(yī)療等行業(yè)應用上做了很多工作。過往的一些進展今天不做過多贅述,主要分享一下我們在大模型基礎能力上的一些理解和布局。
首先,ChatGPT基于所謂大語言模型,正是因為模型數(shù)據(jù)量巨大,使得它對信息記憶非常完整。
第二個是它范式上的最大變化,是將以往NLP里面每一個任務進行單獨建模,ChatGPT是典型多任務的對話式理解的建模,正是因為它對多任務同時建模,使得模型在底層的語義理解能力極大增強;
另外,它采用學習的方法,能夠將人類反饋非常好地融入到模型中。
正是這幾方面創(chuàng)新,讓AI在邏輯推理、多角色、多風格文本生成等方面都有了很大進步。
同時,大模型也會給產(chǎn)業(yè)帶來非常大變革。
我們認為它會改變信息分發(fā)、獲取模式,首先會給搜索引擎帶來非常大的影響,其次也會給內容生產(chǎn)模式帶來革新;第三對于人機交互會產(chǎn)生一個大變革。

在這個趨勢下,科大訊飛在大模型方面也在開展一些工作。主要會基于我們對自身所在領域的理解,包括場景、數(shù)據(jù)、場景中的行為等方面,以及在教育、醫(yī)療、人機交互、辦公這些方向。
之前訊飛研究院也在認知智能大模型上有一定積累和探索,5月6日我們也將有新的發(fā)布,敬請大家期待!

- 4o-mini華人領隊也離職了,這次不怪小扎2025-08-19
- 宇樹機器人“撞人逃逸”火到國外,王興興回應:下次不遙控了2025-08-16
- 突破Claude-4編程上限!自進化Agent框架拿下新SOTA,已開源2025-08-19
- 讓OpenAI只領先5天,百川發(fā)布推理新模型,掀翻醫(yī)療垂域開源天花板2025-08-11