不出聲也能命令Siri!康奈爾大學(xué)華人團(tuán)隊(duì)開發(fā)無聲語言識(shí)別項(xiàng)鏈,中文英文都行
社恐福音
金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
這,或許是現(xiàn)在跟Siri交流最潮的方式了——
只需要動(dòng)動(dòng)嘴皮子,就能讓它under你的control。
沒錯(cuò),就是不需要出任何聲音的那種。
這就是來自康奈爾華人團(tuán)隊(duì)的最新研究成果 SpeeChin,無聲語音識(shí)別。
像這樣:
在沒有聲音的情況下,你能猜出來他在說什么嗎(文末揭曉答案)?
但在SpeeChin的加持下,現(xiàn)在的Siri、Alexa等就已經(jīng)可以識(shí)別,而且還支持普通話和英文!
是有種“此時(shí)無聲勝似有聲”的感覺了。
不說話,怎么控制語音助手?
康奈爾團(tuán)隊(duì)研發(fā)的SpeeChin,其實(shí)是一條神奇的項(xiàng)鏈。
戴上這條項(xiàng)鏈,就能開啟無聲語音控制的大門了。
例如對(duì)著電腦默念一句“Next”,音樂就會(huì)自動(dòng)切換成下一首歌:
或許你會(huì)說一個(gè)單詞過于簡(jiǎn)單了,別急,現(xiàn)在就來加大難度:
“Switch to Taylor Swift.”
可見,SpeeChin即便是面對(duì)一句完整的話術(shù),也可以做到精準(zhǔn)識(shí)別。
而這條“無聲識(shí)別”項(xiàng)鏈的關(guān)鍵,就在于安裝在項(xiàng)鏈下方的紅外攝像機(jī)。
它可以捕捉到人物頸部和面部皮膚的變形圖像,從而進(jìn)行分析識(shí)別工作,確定從“嘴皮子”傳達(dá)的是什么命令。
而且這條項(xiàng)鏈不僅能無聲識(shí)別英文,連中文 (普通話)也能夠hold住。
在最初的實(shí)驗(yàn)中,有20人參與到了測(cè)試中,其中10人講英文,另外10人說普通話。
研究人員讓測(cè)試者分別用英文和中文發(fā)出數(shù)十條指令,包括數(shù)字、互動(dòng)指令、語音輔助指令、標(biāo)點(diǎn)指令和導(dǎo)航指令。
最后的實(shí)驗(yàn)結(jié)果,“無聲識(shí)別”的準(zhǔn)確率分別達(dá)到了90.5%和91.6%。
來自康奈爾大學(xué)的華人團(tuán)隊(duì)
這項(xiàng)研究來自康奈爾大學(xué),一作是Ruidong Zhang。
其中,Cheng Zhang是這項(xiàng)研究的通訊作者。
他是康奈爾大學(xué)信息科學(xué)系的助理教授,他的研究聚焦在如何獲取人體及其周圍的信息,以應(yīng)對(duì)各種應(yīng)用領(lǐng)域中的現(xiàn)實(shí)世界挑戰(zhàn),如交互、健康感知和活動(dòng)識(shí)別。
研究的一作Ruidong Zhang,他是Cheng Zhang教授的一名博士生,本科畢業(yè)于清華大學(xué)。
他的研究興趣在于人機(jī)交互和普適計(jì)算(ubiquitous computing),特別是建立新型的可穿戴設(shè)備,用來促進(jìn)互動(dòng)體驗(yàn)并加深我們對(duì)人類行為的理解。
至于為什么他們要做SpeeChin這項(xiàng)工作,據(jù)Ruidong Zhang解釋:
主要是考慮到在某些特定場(chǎng)合中,人們可能不適合發(fā)出聲音;還考慮到一些不能說話的人群。
最后,來揭曉一下開頭GIF的答案:
你猜對(duì)了嗎?
參考鏈接:
[1]https://techxplore.com/news/2022-02-smart-necklace-silent-english-mandarin.html
[2]https://www.youtube.com/watch?v=pDf86dSPYYI
[3]https://infosci.cornell.edu/content/zhang-0
[4]https://infosci.cornell.edu/content/zhang-1
- 商湯林達(dá)華萬字長(zhǎng)文回答AGI:4層破壁,3大挑戰(zhàn)2025-08-12
- 商湯多模態(tài)大模型賦能鐵路勘察設(shè)計(jì),讓70年經(jīng)驗(yàn)“活”起來2025-08-13
- 以“具身智能基座”為核,睿爾曼攜全產(chǎn)品矩陣及新品亮相2025 WRC2025-08-11
- 哇塞,今天北京被機(jī)器人人人人人塞滿了!2025-08-08