華裔教授實現腦機接口突破,首次實時解碼“問答對話”神經信號
今年 4 月,Nature?雜志曾發(fā)表腦機接口領域一項重大突破,加州大學舊金山分校神經外科華裔教授 Edward Chang 及同事開發(fā)出一種可以將腦活動轉化為語音的神經解碼器。該系統(tǒng)通過解碼與人類發(fā)音相關的腦信號,成功合成出受試者想要表達的語音,解決了癱瘓和失語患者所面臨的重大挑戰(zhàn),為在失語者中恢復語音功能奠定了基礎。
時隔三個月,Edward Chang 教授再一次在腦機接口領域取得重大突破,不僅要實時識別和合成想要發(fā)出的語音,這次研究人員還實現了實時識別和合成正在聽到的語音。
這篇研究論文于 7 月 30 日發(fā)表在?Nature Communications?上,題為《利用人類大腦皮層活動實時解碼問答對話》。在研究中,Edward Chang 團隊成功解碼受試者聽覺和回答問題相關的大腦神經信號,并實時生成對應的文本記錄。
圖丨Edward Chang 教授(來源:UCSF)
這是第一次僅基于受試者對話期間記錄的神經信號,就識別出受試者何時正在傾聽或說話,并預測出受試者正在聽到或想要說出的內容。
此外,該神經解碼系統(tǒng)還能聯(lián)系上下文語境,通過解碼問題的信息來提高解碼答案的準確性(因為某些答案僅對應著某些問題)。最終測試結果表明,該系統(tǒng)能夠解碼產生和感知的語音,準確率分別高達 61% 和 76%。
這項研究,也意味著科學家們幫助那些不能說話的人實現通過“思想”進行交流的努力,離現實更進了一步。
“目前,由于癱瘓而失語的患者只能用殘留的眼球運動或肌肉抽搐來控制電腦界面,緩慢地拼寫單詞。但在很多情況下,他們的大腦中仍然存在著產生流利語言所需的信息,而現在我們需要通過新的技術讓他們表達出來。”Edward Chang 教授表示。
“多年來,我的實驗室主要專注于通過大腦信號如何識別和產生語言,隨著過去十年我們在該領域所看到的進展,我們很清楚,我們或許能夠利用這些發(fā)現來幫助失語患者。”
識別腦電波合成語音
“說話”簡直是一件極其簡單且毫不費力的事情,但實際上“說話”卻是人類執(zhí)行的最復雜的活動之一。
失去說話的能力,是極其不幸和難以挽救的。因中風、肌萎縮側索硬化(霍金即患此?。┗蚱渌窠浵到y(tǒng)疾病而喪失語言功能和溝通能力的患者,亦不在少數。
如何讓這些失語者再次獲得“表達”的能力,是許多科學家們正在努力的事情。目前有一些用于大腦控制打字的腦機接口技術,通過監(jiān)測頭部或眼睛的殘余非語言運動,控制光標以逐個選擇字母并拼出單詞的形式,來幫助癱瘓患者對外表達。
但看過霍金生前“說話”視頻的人,可能就能體會到那種一分鐘蹦幾個單詞的那種崩潰。
(來源:iStock)
2017 年,一直專注于解碼神經元實現人工語音合成的 Edward Chang 教授以及他的研究生 Claire Tang 曾在?Science?雜志發(fā)表論文,闡述大腦皮層顳上回神經元在語言中的重要性。研究首次發(fā)現了人類大腦中用于辨別相對聲調變化的神經元,而這種神經元可以幫助人類在語言中明確表達感情、交流思想。
之后,在今年 4 月?Nature?發(fā)表的研究中,Edward Chang 教授團隊設計了一種神經解碼器,明確地利用人類皮層活動中編碼的運動學和聲音表征來合成可理解的合成語音,實現了以流利說話者速度的語音輸出。
圖丨用于語音合成的腦機接口(來源:Nature)
傳統(tǒng)的語音合成研究采用了上圖 a 的方法,即使用腦電圖設備監(jiān)測大腦語音相關區(qū)域的神經信號,并嘗試使用循環(huán)神經網絡將這些信號直接解碼為合成語音。
而 Edward Chang 以及同事開發(fā)了一種不同的方法(上圖 b),將解碼分為兩個步驟:第一步,將神經信號轉換成聲道咬合部位的運動(紅色);第二步,將聲道咬合部位的運動轉換成合成語音。
此外在一項不需要受試者出聲(僅做出發(fā)音動作)的測試中,通過解碼無聲言語的特征也成功實現了一定程度的語音合成。
可以說,無論是在語音重建的準確性方面,還是在聽眾對所產生語句的辨識力方面,Edward Chang 及其同事的研究結果都為語音合成腦機接口的概念驗證提供了令人信服的證據。
更進一步的“靈魂交流”
既然通過解碼大腦信號,即可代替張嘴說話,人工合成想要說的語音,那么如何進一步識別和解碼出耳朵聽到聲音時的大腦信號,是不是就能實現不用語言對話的“靈魂交流”了呢?
在 7 月 30 日發(fā)表的最新研究中,Edward Chang 及其同事就做了這樣的嘗試,以希望能夠在交互式會話環(huán)境中對語音的“說”和“聽”進行實時解碼。
在自然交流的聽和說過程中,不同的聽覺和發(fā)音運動相關的大腦區(qū)域參與其中。而以往直接從人腦解碼語音的嘗試,通常都是把聽或說任務孤立起來進行考慮。
而 Edward Chang 及其實驗室的研究人員開發(fā)了一種方法,可以實時識別受試者對話過程中的大腦信號,并解碼出正在聽到或想要說出的內容。
具體而言,當受試者執(zhí)行自然對話過程中語音感知(聽到問題)和發(fā)音(大聲回答)任務時,研究人員通過從高密度皮層腦電圖(ECoG)陣列記錄神經活動(覆蓋聽覺和感覺運動皮質區(qū)域),檢測受試者何時聽到或說出話語,然后解碼這些大腦信號的內容。
圖丨受試者在聽到問題(藍色)和回答答案(紅色)期間的實時語音解碼的示意圖(來源:Nature)
在每次試驗中,參與者都會聽到一個問題,并在屏幕上看到一組可能的答案選項(上圖 a),當綠色提示出現在屏幕上時,受試者需要自由選擇并口頭給出其中一個答案(上圖 b);
此時,植入于大腦皮層的ECoG電極實時獲取大腦皮層活動信號(上圖c),語音檢測模型通過獲取的大腦皮層信號來預測受試者是否正在聽到問題或產生了答案,或兩者都沒有(上圖d);
當語音檢測模型檢測到“正在聽到問題”事件時,神經信號傳入神經解碼器進行解碼,并輸出所解碼出的問題(上圖e和f);因為某些答案只對某些問題是合理的,因此研究人員使用解碼的問題可能性作為上下文動態(tài)更新每個答案的先驗概率(上圖g和h)。
當語音檢測模型檢測到“回答”事件時,神經信號被傳遞給一個答案解碼器,來解碼并計算可能的答案(上圖 i),上下文整合模型將這些答案的可能性與答案的先驗結合起來,從而產生答案的后驗概率(紫色),并輸入最終的解碼答案(上圖 j 和 k)。
“之前的大多數方法都只關注于解碼語音,但在這里我們展示了解碼對話雙方的價值——人們聽到的問題和他們的回答?!盓dward Chang 說。
測試結果表明,該系統(tǒng)實時解碼受試者聽到問題和給出答案的準確率,分別為高達 76% 和 61%。這些結果也證明了在交互式會話環(huán)境中對語音進行實時解碼的可行性,對于為無法溝通的患者開發(fā)相應的腦機接口設備具有重要意義。
研究人員也表示,更好的算法和更快的計算機也提高了研究中解碼的速度,過去需要幾周到幾個月的離線處理,現在可以實時完成。
腦機接口的商業(yè)押注
Edward Chang 團隊近期兩項經同行評議的腦機接口重磅突破研究,讓人不得不聯(lián)想起本月埃隆·馬斯克(Elon Musk)宣布他的腦機接口公司 Neuralink 所取得的進展。
7 月 17 日,馬斯克為其投資的腦機接口初創(chuàng)公司 Neuralink 召開了一場發(fā)布會,首次對外披露了這家公司在腦機接口上的最新技術進展以及未來展望:Neuralink 演示了其已經在小鼠身上實驗過的一款名為“縫紉機”(sewing machine)的探針設備,該設備可將 1500 個電子探針送入小鼠大腦,能夠同時從多個神經元中提取信息。目前,Neuralink 的這款設備已經在動物身上進行了至少 19 次手術,植入電線成功率達 87%。
圖丨Neuralink 的腦機接口設備宣傳圖(來源:Neuralink)
這次發(fā)布也是 Neuralink 成立兩年以來最重磅的一次成果發(fā)布。不過,這一舉動與學術界的慣例相悖,在發(fā)表論文之前,就進行了成果的新聞發(fā)布。在發(fā)布會上,馬斯克也表示,如果 FDA 批準,最快在明年年底,將能夠在患者身上使用這項技術。
雖然不少批評的聲音認為,這是馬斯克蘊含風險的瘋狂嘗試,但這也凸顯出近年來資本在腦機接口領域的商業(yè)關注。比如,Edward Chang 實驗室所開展的腦機接口研究,就是由 Facebook Reality Labs 資助。
腦機接口研究同樣是 Facebook 雄心勃勃的主要目標之一。2017年,Facebook 的腦機接口計劃研究總監(jiān) Mark Chevillet 在一次會議上,描述了一種能夠從大腦活動中每分鐘讀出 100 個單詞的非侵入性技術,在當時這種新的“大腦打字”計劃聽起來完全是瘋狂的。
如今,兩年過去了,Chevillet 似乎對這個目標更有信心。Edward Chang 團隊在?Nature Communications?發(fā)表的最新研究,的確讓 Facebook 開發(fā)可以控制而不必大聲說話的增強現實(AR)眼鏡的最終目標,更加現實。
(來源:Facebook)
似乎,Facebook 和 Neuralink 的舉動,讓人感受到了率先提供解碼大腦活動的商用腦機接口技術的競爭。不過,目前來看,實現這一目標的過程很可能是一個緩慢的過程。
Chevillet 在接受 IEEE Spectrum 采訪時表示,“我們還沒有任何實際的產品計劃,因為這項技術是如此早期的研究?!?/p>
而 Edward Chang 則表示,他希望能夠盡快為不能說話的人群帶來有意義的改變。到目前為止,該團隊的所有工作都是在會說話的志愿者身上完成的,所以現在該團隊將花一年時間與一位失語的患者合作研究。
Edward Chang 也強調,所有與 Facebook 合作的結果都將發(fā)布,并向學術界開放?!拔蚁M@不僅僅受益于我們所做的,而是受益于整個領域?!?/p>
來源:MIT科技評論


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經許可,禁止轉載。