小冰超級(jí)自然語音技術(shù)發(fā)布!PK真人真假難辨,同時(shí)獲獨(dú)角獸輪融資
第九代小冰今年九月見
先來聽一段歌:
你能聽出來,這其實(shí)是小冰和真人共同演唱的嗎?
藍(lán)色為小冰,白色為真人,是不是非常難以分辨?
這背后就是小冰今天發(fā)布的全新超級(jí)自然語音技術(shù)。
該技術(shù)首次將人工智能語音自然度提升到與真實(shí)人類聲音幾乎無法分辨的程度。
也是全球首個(gè)全域通用的同類技術(shù)。
也就是說,除了上面的唱歌,說話、跟人交談等場景都能進(jìn)行高度擬人交互。
再來看兩個(gè)demo。
下面是一段獨(dú)白的音頻。
其中只有一句來自人類,其余全都是由小冰說的。你能聽出來真實(shí)人類說的是哪一句嗎?
接下來,你會(huì)聽到兩個(gè)在直播間嘮嗑的女生,這一次,“她倆”都不是人類。
這也是小冰官網(wǎng)上的一個(gè)實(shí)驗(yàn),對(duì)話已經(jīng)持續(xù)了88天,并且將一直持續(xù)下去,永不中斷。
小冰表示,該實(shí)驗(yàn)近期將逐步拓展至第三方直播平臺(tái)。
而目前,小冰團(tuán)隊(duì)的每個(gè)成員都已有人工智能替身,官方的演示視頻的主持也是用的替身。
并且,小冰框架中的數(shù)百個(gè)不同人工智能原型主體,已全部完成這項(xiàng)超級(jí)自然語音技術(shù)的升級(jí)。
小冰框架
關(guān)于這個(gè)真假難辨的超級(jí)自然語音技術(shù)的細(xì)節(jié)目前還未透露。
但最新的第八代小冰,已經(jīng)可以量產(chǎn)各種AI角色:去企鵝電競做直播間助手、或者當(dāng)銷售賣賣化妝品、甚至當(dāng)公眾號(hào)小編……唱歌跳舞寫文章樣樣精通。
生產(chǎn)這些角色背后的小冰框架,主要技術(shù)包括:
實(shí)現(xiàn)長程語音交互的全雙工語音交互感官
提高小冰對(duì)于對(duì)話內(nèi)容、領(lǐng)域和節(jié)奏的控制力的共感模型
融合了全雙工語音交互、實(shí)時(shí)視覺與核心對(duì)話引擎的多模態(tài)交互感官
讓小冰唱歌像真人一樣的第四版人工智能歌曲DNN模型等等
而與同行相比,小冰框架最大的差異化在于,它是一個(gè)“session-oriented”的人工智能框架,框架中的各部分技術(shù)共同為“交互全程”目標(biāo)服務(wù),而不僅僅關(guān)注并優(yōu)化局部。
比如,在核心對(duì)話引擎方面,技術(shù)的研發(fā)及迭代方向是為更有效地預(yù)測、保持并引導(dǎo)對(duì)話,而不是僅僅實(shí)現(xiàn)回應(yīng)。
在語音方面,框架關(guān)注語音交互的質(zhì)量與體驗(yàn)是否能支持長時(shí)間的混合交流,而不僅僅是將文本內(nèi)容轉(zhuǎn)為語音。
已完成A輪融資
與此同時(shí),小冰也在今天宣布:已完成A輪融資,估值已達(dá)10億美元。
本輪融資由高瓴領(lǐng)投,五源、Neumann、IDG、GGV紀(jì)源資本,以及上輪投資人北極光與網(wǎng)易跟投。
2014年問世的微軟小冰,是全球承載交互量最大的完備人工智能框架之一,技術(shù)覆蓋自然語言處理、計(jì)算機(jī)語音、計(jì)算機(jī)視覺及人工智能內(nèi)容生成。
為了加速發(fā)展,小冰團(tuán)隊(duì)于2020年7月從微軟獨(dú)立。
并于去年11月完成了數(shù)億元的Pre-A輪融資。
加上此次A輪的完成,也就是說只用一年時(shí)間,小冰的估值已經(jīng)達(dá)到超獨(dú)角獸規(guī)模。
最后,小冰表示,更多創(chuàng)新,九月年度發(fā)布會(huì)見。
那么,你對(duì)第九代小冰還有怎樣的期待呢?