意念打字登Nature封面!每分鐘寫90個字符,準確率超99%
斯坦福大學出品
楊凈 夢晨 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
萬萬沒想到,腦機接口這么快就有了重大突破!
甚至還登上了Nature封面。
一位截癱患者,正在用“意念”打出一段話,0.5秒左右就能輸出一個字母。
準確率也十分驚人,高達99.1%。
他所需要做的,只是在腦中將字母“手寫”出來,然后系統(tǒng)就會自動識別生成字母,一分鐘可寫90個字符。
這幅字雖然寫的不咋地,但起碼受到了Nature的“青睞”。
值得一提的是,在此之前,這位患者在另一個測試項目中,嘗試過“意念”移動光標來打字,不過一分鐘只能打出13.4個正確字符 。
此研究一出,就引發(fā)學界、網(wǎng)友的巨大關注。
祝賀之余,一位華盛頓大學教授甚至直呼:我打的都比它慢!
RNN立功了
這位代號為T5的老爺子腦中植入的,是兩個來自Braingate的電極陣列,各含有96個電極。
實驗剛開始就遇到第一個困難:如何識別用戶什么時候開始嘗試書寫字母。
最后發(fā)現(xiàn)原本用于語音識別的模型可以完成這個任務。
解決這個問題之后,研究人員發(fā)現(xiàn)書寫單個字符時觀察到的腦部活動相對固定,并且總是集中在一起。
并且書寫形狀類似的字母比如“b”和“p”時用到的區(qū)域是接近的。
看來即使癱瘓多年,運動皮層中筆跡的神經(jīng)表征也沒有消退。
經(jīng)過人工標注后,這些數(shù)據(jù)就可以作為原始數(shù)據(jù)集了。
接下來是算法,研究人員選擇了循環(huán)神經(jīng)網(wǎng)絡?(Recurrent Neural Network,以下簡稱RNN)。
與常見的前饋神經(jīng)網(wǎng)絡相比,RNN對數(shù)據(jù)序列中的每個元素執(zhí)行相同的任務,計算結果取決于之前的所有結果,所以用循環(huán)命名。
RNN更擅長預測連續(xù)數(shù)據(jù),正適合這次研究的連續(xù)書寫一個句子。
RNN雖強大但有一個缺點,就是需要大量的數(shù)據(jù),否則容易出現(xiàn)過擬合。
這次參與研究的被試就只有老爺子一人,他也不愿意每天花好幾個小時大量的進行重復書寫提供數(shù)據(jù)。
不過沒關系,還有數(shù)據(jù)增強?(Data Augmentation)。就是對每個圖像數(shù)據(jù)進行一些微小的改變,旋轉一下、縮放一點、或者鏡像翻轉之類的操作,增加數(shù)據(jù)的多樣性。
除了26個字母以外,輸入英文還得有一些必要的標點符號。比如空格,研究人員就要求老爺子用>代替,英文句號只有一個點也不好分辨,用~代替。此外還有逗號、頓號和問號。
不過這次研究沒加入數(shù)字,可能是研究人員覺得區(qū)分z和2有點難,就留待下次解決了。
開始訓練時使用的數(shù)據(jù)只有242個句子,隨后每天都增加一些,最終共有572個句子,31,472個字符。
最后,為了解決有的英文字母之間過于相似,研究人員還設計了一套專用于腦機接口的字母表進行測試,準確率會高不少,但有學習成本。
字符準確率最高達99.1%
接著,就到了志愿者測試階段。
根據(jù)屏幕提示,志愿在大腦中一個字母一個字母地復制書寫,字符經(jīng)過識別生成在屏幕上。
結果測試顯示,從大腦“手寫”字符,到字符在屏幕中出現(xiàn),中間會有一個延遲,大概在0.4-0.7秒之間。
整體來看,志愿者平均每分鐘可以打出18個單詞、90個字符,字符錯誤率僅為5.9%。
經(jīng)過類似手機自動糾正的預測語言模型之后,他們進一步將字符的準確率提高到99.1%。
單詞的錯誤率也從25.1%降低到3.4%。
此外,志愿者還進行了一番自我創(chuàng)作——不用復制、自己“書寫”句子,結果每分鐘也可以打出73.8 個字符,經(jīng)過預測語言模型糾正后,準確率超過了97%。
最后,為了挑戰(zhàn)極限,研究人員還訓練了一個新的RNN,用戶寫完整個句子之后再集中處理,這種方法的正確率高達99.83%,不過用戶就得不到實時的反饋了。
實際上,這其實是BrainGate項目的一部分。這是一個多機構聯(lián)盟的項目,包括布朗大學、美國生物技術公司Cyberkinetics,專注于腦機接口技術,致力于恢復神經(jīng)系統(tǒng)疾病、損傷或喪失肢體的人的交流、行動和獨立性。
此前,這個項目實現(xiàn)了腦機接口信號的無線傳輸,讓患者可以離開實驗室環(huán)境,在家輕松上網(wǎng)看視頻。
斯坦福大學霍華德?休斯醫(yī)學研究所(HHMI)研究員、論文作者之一Krishna Shenoy表示,此次研究最大的創(chuàng)新在于,破譯了與手寫筆記相關的大腦信號,讓截癱患者快速準確的打字。
論文一作,同樣是來自斯坦福大學的Frank Willett博士,他表示會將整個研究的代碼和神經(jīng)數(shù)據(jù)開源。
目前,它還不是一個完整的、臨床的商業(yè)系統(tǒng),畢竟也只在一個人身上進行了測試。
接下來將在更多測試群體、打字功能的拓展(編輯、刪除)、擴展字符集(比如大寫字母,以及其他語言)等方面進行提升。
是不是可以dream一個漢語?
除此之外,還有一些因素值得討論,比如成本和風險。
華盛頓大學生物工程系學者Pavithra Rajeswaran、電氣和計算機工程系學者Amy Orsborn表示,這項研究仍需要經(jīng)過試驗論證,將電極植入大腦的費用和風險是否合理。
受益的不止癱瘓者
除了癱瘓患者外,也有因其他傷病導致打字困難的人表示很激動!
比如閉鎖綜合癥,因部分神經(jīng)的損壞導致身體部分機能的退化或消失,雖然意識清醒,但無法通過語言交流。
還有重復性壓迫損傷?(RSI),包括因使用鼠標或打字不當產(chǎn)生的鼠標手、腱鞘炎等。
有一位RSI患者說,我還需要一個能夠模仿鼠標滾輪的功能,不過網(wǎng)友回復他說你用一個腳踩的踏板或者眼球追蹤要比侵入型腦機接口簡單多了。
看到這個消息,網(wǎng)友也腦洞大開。
有人發(fā)現(xiàn),想象自己用手寫字和直接想象腦海中的軌跡是不一樣的感覺,不知道哪個更容易識別。
要不, 你也試試在腦中寫字?(手動狗頭)
論文鏈接:
[1]https://www.nature.com/articles/s41586-021-03506-2
參考鏈接:
[1]https://www.nature.com/articles/d41586-021-00776-8
[2]https://news.ycombinator.com/item?id=27134049
[3]https://twitter.com/WillettNeuro
[4]http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/
- 字節(jié)突然開源Seed-OSS,512K上下文主流4倍長度,推理能力刷紀錄2025-08-21
- “現(xiàn)在讀AI博士已經(jīng)太晚了”2025-08-19
- 谷歌AI攻克亞洲語言難題,2300種語言數(shù)字化計劃正在推進2025-08-18
- AMD蘇姿豐公開懟扎克伯格!反對1億年薪挖人,使命感比鈔票更重要2025-08-18