意念打字破新紀(jì)錄!心中想著「說話」,詞就蹦跶出來,斯坦福團(tuán)隊出品
已開始接近正常人溝通速度。
詹士 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
意念打字新紀(jì)錄誕生!
受試者通過植入設(shè)備,平均輸入速度能達(dá)每分鐘62個單詞,是團(tuán)隊之前紀(jì)錄的3倍。
同時準(zhǔn)確率也有明顯提升,面向50個單詞詞匯表,識別準(zhǔn)確率比先前紀(jì)錄提升2.7倍。
據(jù)研究者稱,這已開始接近正常人溝通速度(每分鐘160個單詞)。
不信?那就看看現(xiàn)場實況。
受試者“按詞輸入”,點點頭就出了個句子,還是蠻絲滑的:
相比下,此前研究按“字母”逐個輸入,顯得更費(fèi)勁不少:
△?2021年登Nature封面的成果展示
創(chuàng)造該紀(jì)錄的團(tuán)隊來自斯坦福,前兩天,他們剛將相關(guān)論文預(yù)印本放上bioRXiv,引來不小關(guān)注。
未參與項目的加州大學(xué)舊金山分校研究員Philip Sabes,將之稱為“重大突破”。他認(rèn)為,相關(guān)技術(shù)很快將走出實驗室,進(jìn)入落地階段。
不少網(wǎng)友也對該成果也相當(dāng)興奮,Reddit點贊上萬,有人恨不能立馬給家人整一套。
值得一提的是,論文發(fā)表同一天,共同主要作者之一的Krishna Shenoy因胰腺癌去世,不少學(xué)者與研究機(jī)構(gòu)為此悼念。
所以這回,科學(xué)家們?nèi)绾蝿?chuàng)造出意念打字新紀(jì)錄?與之前方式有什么不同?
繼續(xù)往下看。
識別開口說話的神經(jīng)活動情況
意念打字過去一直是腦科學(xué)領(lǐng)域的熱門研究方向,也備受社會大眾關(guān)注,更早之前的實現(xiàn)方法是——讓受試者在腦中手寫字母,或是在腦中讀出特定讀音,再靠系統(tǒng)識別。
此次,科學(xué)家們用了不同的信息識別辦法——直接讓受試者“說”出來,哪怕只在大腦里。
具體來說,他們依靠一套語音腦機(jī)接口(BCI)系統(tǒng),識別人類說話中相關(guān)的口腔、面部神經(jīng)活動情況,通過解碼其動作控制信號,再去輸出受試者想表達(dá)的文本。
基于上述思路,科學(xué)家們開展了一系列實驗。
此番受試者是一位女性,時年67歲,她在57歲時被診斷出患有肌萎縮性側(cè)索硬化癥 (ALS),該病癥讓她在很長時間被吐字發(fā)音不清折磨,說話僅能發(fā)出幾個元音,輔音幾乎很難分辨。
為保護(hù)隱私,該受試者被團(tuán)隊稱為T12,2021年的研究中,他們也用了同樣方法,將另一位男性受試者稱為T5。
2022年3月,經(jīng)當(dāng)事人同意,科學(xué)家為其在腦中植入四個微電極陣列,以檢測語言相關(guān)神經(jīng)活動情況。
在植入后的實驗中,科學(xué)家先讓受試者嘗試做不同動作,觀察相關(guān)區(qū)域的神經(jīng)活動狀況。
比如,讓受試者睜眼、閉眼、眨眼以觀察控制眼皮相關(guān)神經(jīng)元活動;再比如讓嘴唇張開、閉合、微笑,以檢測相關(guān)腦區(qū)活動。當(dāng)然,實驗觀察部位還包括:額頭、下巴、喉部、舌頭等。
科研團(tuán)隊發(fā)現(xiàn),不同動作之間神經(jīng)活動高度分離,在特定檢測頻率下,他們針對34個口部面部動作進(jìn)行解碼,準(zhǔn)確率為92.7%,若面向39個音素,解碼準(zhǔn)確率為60%。這側(cè)面說明原計劃具備可操作性。
下一步是將說話的相關(guān)神經(jīng)活動和文本關(guān)聯(lián)起來。
科研工作者預(yù)先準(zhǔn)備了一個RNN解碼器,以80ms為間隔,檢測識別神經(jīng)活動信號,這當(dāng)中,神經(jīng)網(wǎng)絡(luò)會依靠最大概率判斷輸出單詞,錯誤的發(fā)音也將被糾正,最終輸出文本。
為訓(xùn)練該網(wǎng)絡(luò),受試者需要每天嘗試輸出260-280語句的數(shù)據(jù)。
百天之后的測試中,無論是否發(fā)出聲音,對單詞的識別速度均在每分鐘50詞以上,該表現(xiàn)大約是該團(tuán)隊此前2021年紀(jì)錄的3倍。
且無論面向50個單詞,還是12500個單詞,解碼效率差異不大。
識別錯誤率也有大幅改善。
針對50個單詞的表達(dá),識別錯誤率在9.1%,即便受試者進(jìn)行不發(fā)聲表達(dá),錯誤率也僅11.2%。
針對12500單詞庫時,表達(dá)識別的錯誤率為23.8%,不發(fā)聲輸出錯誤率為24.7%,該錯誤率與之前研究面向50詞的測試情況正誤情況基本持平,能看出該方法準(zhǔn)確度大幅上升。
上述測試之外,科學(xué)家還探究了哪些方向能進(jìn)一步優(yōu)化該系統(tǒng)。
他們考慮了三個維度——語言模型詞匯量、植入腦部電極數(shù)量、訓(xùn)練數(shù)據(jù)集大小。
結(jié)果顯示,隨著單詞數(shù)量提高,錯誤率的確會升高,但在1000詞量級趨于平緩(下方左圖),團(tuán)隊由此認(rèn)為,日后研究通過壓縮單詞數(shù)不一定有效。
但對于植入電極數(shù)量來說,更多的通道數(shù)(精度)的確會帶來錯誤率降低。如下方右圖,從500提升到1000,錯誤率從4%,降低到了1.9%。
另值得一提的是,即便未經(jīng)訓(xùn)練,面向新數(shù)據(jù),系統(tǒng)單詞錯誤率也只有30%。且通過訓(xùn)練,錯誤率會不斷下降。
對于后續(xù)研究,團(tuán)隊指出該成果目前還不是完整的、臨床上可落地的系統(tǒng)。此外,24%錯誤率在日常生活中也還不夠低,后續(xù)研究將在各方面努力。
意念打字一直熱度不減
本文一作是Francis Willett,來自斯坦?;羧A德休斯醫(yī)學(xué)研究所,主要研究領(lǐng)域為腦機(jī)接口、運(yùn)動神經(jīng)科學(xué),他也對人工神經(jīng)網(wǎng)絡(luò)模型有所涉獵。
2021年登上Nature封面的意念打字研究中,他也是一作。跟上次一樣,此番他表示——將會公布研究的代碼和數(shù)據(jù)。
另一位主要作者是Erin Kunz,來自斯坦福電氣工程系在讀博士,此前,她還曾在通用擔(dān)任自動駕駛工程師。
前文提及剛剛過世的Krishna Shenoy也是本文主要作者。
2021年登Nature的論文,他亦是貢獻(xiàn)者之一,此前研究中,他破譯了與手寫筆記相關(guān)的大腦信號,讓截癱患者快速準(zhǔn)確地打字。
該項工作十分關(guān)鍵,因為當(dāng)時他們使用的方法是——讓受試者在腦中“寫出”字母。
除該團(tuán)隊,在“意念打字”這件事上,還有更多科學(xué)家在努力。
比如2022年11月,加利福尼亞大學(xué)舊金山分校(UCSF)提出的一種不同方法。他們通過植入128通道皮質(zhì)電圖(ECoG)陣列,外加一個經(jīng)皮連接器,用來連接植入設(shè)備和外部系統(tǒng)。
在識別方式上,他們所想到的是——讓受試者在腦中默念字母NATO代碼(比如α代替a,β代替b),完成逐個字母輸入,平均2秒可鍵入一個字母,最終平均字符錯誤率僅6.13%。
之前,量子位智庫對該趨勢也有所展望,認(rèn)為“意念打字”乃至背后的腦機(jī)接口技術(shù)已在商業(yè)化發(fā)展上初具雛形。
清華李路明團(tuán)隊、瑞金醫(yī)院、浙江大學(xué)及浙大二院神經(jīng)外科等團(tuán)隊或機(jī)構(gòu),均有所積累。
另值得一提的是,去年末馬斯克及Neuralink還讓猴子搞了一回“意念打字”,雖說是用訓(xùn)練猴子意念點擊屏幕中的黃色按鈕,但也算“蹭”了一波。
當(dāng)時,馬斯克還說,他和Neuralink已向FDA遞交了諸多文件,預(yù)計6個月后(預(yù)計今年六月)開啟人體試驗。
但能不能等到,還真不一定……
畢竟同樣的話,他在2022年4月已說過一次了。(狗頭)
參考鏈接:
[1]https://www.technologyreview.com/2023/01/24/1067226/an-als-patient-set-a-record-for-communicating-via-a-brain-implant-62-words-per-minute/
[2]https://www.freethink.com/hard-tech/speech-bcis
[3]https://www.biorxiv.org/content/biorxiv/early/2023/01/21/2023.01.21.524489.full.pdf
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)
- 大數(shù)據(jù)已死!從業(yè)10年老哥爆文抨擊:這套唬不住客戶了2023-02-14
- ChatGPT五分鐘寫完插件,功能完善,還可加需求改BUG2023-02-09
- 谷歌創(chuàng)始人親自下場改代碼,ChatGPT讓谷歌真慌了2023-02-03
- 谷歌加緊測試ChatGPT競品,靠對話可搜最新信息2023-02-02