Siri和Alexa背后的女科學(xué)家逝世,是她讓AI有了女聲
女聲合成之母,享年74歲
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
“嘿Siri,你能幫我做點什么?”
“……”
Siri的“甜美女聲”,現(xiàn)在已經(jīng)司空見慣了。
但如果沒有女科學(xué)家Ann Syrdal的努力,這種“合成女聲”可能還需要更長的時間。
遺憾的是,7月24日,74歲的Ann Syrdal去世了。
這位被網(wǎng)友諧音為“Answer doll”(問答娃娃)的語音合成專家,曾經(jīng)是美國電話電報公司(AT&T,擁有貝爾實驗室)的首席技術(shù)研究員。
在美國電話電報公司研究期間,她開發(fā)出了“第一個真正高質(zhì)量的女性合成聲音”,這才有了后來的Siri和Alexa(亞馬遜的語音助手)。
于是《紐約時報》評價說:她是Siri和Alexa背后的那個人。
事實上,雖然語音合成技術(shù)早已有之,1939年,AT&T的貝爾實驗室就已經(jīng)開發(fā)出了首批合成語音。
但,這些語音合成技術(shù)(TTS)基本只能合成男性的聲音。
往后的40年間,計算機技術(shù)突飛猛進,合成女性語音的技術(shù)卻一直停滯不前。
Siri的開發(fā)者Tom Gruber曾經(jīng)表示:“那些聲音聽起來就像機器人說話一樣。”
而Ann Syrdal的到來,才讓合成女性聲音有了質(zhì)地的飛躍。
讓機器發(fā)出“自然的”女聲
自20世紀(jì)80年代中期,Syrdal開始研發(fā)女性語音合成系統(tǒng)。
Syrdal的同事、語言研究員h.s.Gopal曾表示:“那時候,所有人都認(rèn)為女聲只是男聲的高頻版本,但這種想法根本不起作用。”
事實上,由于女性聲音的特點,例如更高的音調(diào)和更多的氣音,會導(dǎo)致在電話和計算機里,女性的聲音比男聲更加難聽懂。
據(jù)研究發(fā)現(xiàn),即使是真人對講,女性聲音被聽錯的概率要比男性平均高出33%。
舉個例子,當(dāng)你在做英語聽力時,有沒有感覺到,男聲聽力題往往會比女聲更容易聽懂?
這也是為什么,電話行業(yè)中大多數(shù)計算機合成的聲音聽起來像男性。
然而,語音合成領(lǐng)域不可能只有男聲。
事實上,部分有發(fā)聲障礙的女性,一直更希望能以女性的合成聲音與外界溝通;此外,也有人對女聲更加敏感。
就在1990年,Syrdal開發(fā)了一種可以合成女聲的系統(tǒng),通過優(yōu)化數(shù)據(jù)庫中的聲音,將女性合成聲音聽錯的幾率從67%降到了40%。
這其中,一個名為Julia的女性合成聲音,就是Syrdal開發(fā)出來的。
Julia合成女聲.wav來自量子位00:0000:27
可以聽見,無論是發(fā)音還是流暢程度,都已經(jīng)達(dá)到了非常不錯的水平,當(dāng)然,語調(diào)還有一點奇怪,不過已經(jīng)非常逼真了。
與直接創(chuàng)作語音相比,Syrdal選擇將真人女性的語音片段組成一個大型數(shù)據(jù)庫,在準(zhǔn)確標(biāo)記、確保語音質(zhì)量的前提下,將它們拼湊起來,找到組合的規(guī)律,便于組成新詞和新的句子。
此外,她還建立并測試了人類計算機模型,試圖理解人類是如何識別各種語音的。
而她一直以來研究的目標(biāo),是將這個錯誤率降到33%以下,甚至比真人女性聲音被聽錯的概率還要低。
1998年,Syrdal研發(fā)出的「自然之聲」系統(tǒng)(Natural Voices),在國際語音合成器競賽中獲得了第一名,這是這項競賽的一個拐點——因為它使用了女性的聲音。
現(xiàn)如今,采用這項技術(shù)的Siri和Alexa,已經(jīng)同時提供了女性和男性的聲音。
而在美國與日本,Siri的女性聲音已經(jīng)成為了“標(biāo)配”,幾乎所有iPhone手機采用的都是Siri的女聲。
2008年,Syrdal被任命為美國聲學(xué)學(xué)會的研究員,以表彰她對女性語音合成領(lǐng)域所做出的貢獻(xiàn)。
「自然之聲」項目的負(fù)責(zé)人Juergen Schoeter表示:“就像是有什么力量一直驅(qū)動著她,促使她去優(yōu)化女性聲音的質(zhì)量?!?/p>
合成女性語音之母
Ann Syrdal于1945年12月13日生于明尼阿波利斯(Minneapolis),她的父母于霍尼韋爾認(rèn)識,這是一家二戰(zhàn)前就存在的科技巨頭公司。
她的父親是一名開發(fā)真空管與電子技術(shù)的物理學(xué)家與工程師,在她2歲的時候就離世了,母親將她撫養(yǎng)長大。
事實上,Ann Syrdal考上明尼蘇達(dá)大學(xué)時,并沒有考慮過從事科學(xué)工作,直到一位心理學(xué)教授請她幫忙做一個有老鼠參與的實驗,她才意識到自己熱愛實驗室工作。
隨后,她在明尼蘇達(dá)大學(xué)獲得本科與博士學(xué)位,此后在麻省理工學(xué)院從事博士后的研究。
也是在麻省理工學(xué)院和皇家理工學(xué)院,她開始研究人類語言的機制,此后一鉆研就是大半輩子,一直到2015年,仍然在堅持不懈地發(fā)表論文。
事實上,Ann Syrdal發(fā)表的論文數(shù)量不多,在Researchgate上顯示的一共有55篇,這些論文一共被引用了1100余次。
然而,她在語音合成領(lǐng)域上做出的貢獻(xiàn)卻有目共睹。
對于Ann Syrdal本人來說,選擇科研的動力,來自于她在MIT工作的那段時間。
“無論在哪個領(lǐng)域,似乎都能在這里找到那個領(lǐng)域的世界專家,這種激勵的感覺幾乎讓人難以夜寐。”
Ann Syrdal的女兒表示,因為癌癥的原因,她于7月24日在加利福尼亞圣何塞的家中離世。
參考鏈接:
https://www.nytimes.com/2020/08/20/technology/ann-syrdal-who-helped-give-computers-a-female-voice-dies-at-74.html
https://www.researchgate.net/scientific-contributions/7938035_Ann_K_Syrdal
https://www.reddit.com/r/technology/comments/idjjvc/ann_syrdal_who_helped_give_computers_a_female/
https://en.wikipedia.org/wiki/Ann_Syrdal