我們擅長商業策略與用戶體驗的完美結合。
歡迎瀏覽我們的案例。
中風、脊髓損傷癱瘓、肌萎縮側索硬化(ALS)等患者,是腦機接口(BCI)領域的重要研究切入口,科學家們利用先進的技術試圖重建這部分人的正常生活。此前的腦機接口已經不同程度上解鎖了伸手、抓握或移動電腦光標這樣的大動作技能,但更復雜和對靈敏度要求更高的技能才是腦機接口最終的證明。
北京時間5月12日晚間,頂級學術期刊《自然》(Nature)以封面文章的形式刊發了由斯坦福大學、布朗大學、哈佛醫學院等團隊的研究人員聯合完成的一項里程碑式研究,題為“High-performance brain-to-text communication via handwriting”。該研究回歸到古老的表達自方式——手寫,首次解碼了與書寫有關的神經信號,并實時顯示它們。
研究團隊將人工智能軟件與一款腦機接口設備結合起來,與一名大腦中植入腦機接口設備的癱瘓患者合作,讓該患者想象他拿著一支筆,在一張橫線紙上“嘗試”寫字,就像他的手沒有癱瘓一樣。并將該男子手寫意圖快速轉換為電腦屏幕上的文本。
“這種腦機接口是為那些患有‘閉鎖綜合征’(Locked-in Syndrome)的人設計的,這些人群幾乎所有的隨意肌都癱瘓,無法說話或交流。”該項研究的通訊作者同時也是第一作者的Francis R. Willett博士在接受澎湃新聞(www.thepaper.cn)記者專訪時表示,“想象一下,如果你只能上下移動你的眼睛卻動彈不得,這樣的設備可以讓輸入你想法的速度與正常的手寫或在智能手機上打字相媲美。”
Willett是斯坦福大學神經修復轉化實驗室的研究科學家,由霍華德·休斯醫學研究所任命。他的研究工作主要圍繞改善腦機接口、理解大腦是如何表現和控制運動的。除Willett之外,該項研究主要由斯坦福大學神經外科醫生Henderson,斯坦福大學霍華德·休斯醫學研究所研究員Krishna Shenoy共同指導,Willett即是Shenoy團隊中的一員。Shenoy和Henderson則從2005年就開始合作腦機接口研究。
《自然》還同期刊發了華盛頓大學Pavithra Rajeswaran、Amy Orsborn兩位研究人員對該項研究的觀點文章。“盡管還有很多工作要做, Willett及其同事的這項研究是一個里程碑,拓寬了侵入式腦機接口應用的視野。”他們評價道,這項研究中的方法“使允許快速交流的神經接口更接近現實。”
加州大學伯克利分校的神經工程師Jose Carmena沒有參與這項研究。他說,這項技術以及其他類似技術有潛力幫助各種殘疾人士。雖然這些發現只是初步的,“但這是該領域的一大進步。”Carmena說,腦機接口將思想轉化為行動,“這篇論文就是一個很好的例子,解碼了書寫的意圖,并產生了動作。”
這項研究中使用的腦機接口僅用于研究,尚未批準用于商業用途。斯坦福大學技術許可辦公室已經申請了與Willett、Henderson和Shenoy的工作有關的知識產權專利。
研究人員第一次破解了關于字母書寫的神經信號,使這些字母可以實時顯示出來。(01:40)
“找到讓人們交流更快的新方法”
這項研究開發的腦機接口對無法正常說話的人群有多重要?“如果是腦機接口,Jean-Dominique Bauby可能每分鐘能寫18個單詞。”Willett對澎湃新聞記者如是表示。
Jean-Dominique Bauby為原法國時尚雜志ELLE總編輯,其突然中風,隨后全身癱瘓,只剩下眼睛能眨動。《潛水鐘與蝴蝶》是他罹患閉鎖綜合征后所作的傳記,為了寫這本書,一位輔助者將法語字母表中的所有字母一一列出,然后Bauby眨一下左眼才能選擇他想要的字母,寫一個單詞可能需要幾分鐘。
Henderson 也同樣談到這一例子。“他能夠寫出這本動人而美麗的書,是因為他竭盡所能地選擇字母,一次一個,并使用了眼球運動。想象一下,如果有了Willett的手寫腦機接口,他能做什么!”
實際上,因不同原因導致行動或說話能力喪失的人對腦機接口的需求不一。失去手功能的人仍然可以使用帶有語音識別和其他軟件的設備,而對于那些說話有困難的人,科學家們則一直在開發其他方式來幫助人們交流。
目前商用的輔助打字設備主要依賴于使用者能夠進行眼球運動或發出語音命令。例如,眼球追蹤鍵盤可以讓癱瘓者每分鐘輸入約47.5個字符,比沒有損傷的人每分鐘輸入115個字符的速度要慢。然而,這些技術不適用于癱瘓同時損害了眼球運動或發聲的人。
而到目前為止,用于打字輸入的腦機接口還無法與眼球追蹤器等更簡單的輔助技術競爭。Rajeswaran等人在觀點文章中指出,原因之一是打字是一項復雜的任務,在英語中,我們就需要從26個字母中選擇。根據用戶的神經活動來預測他們想選擇哪個字母,以此構建一個分類算法,這也是一項具有挑戰性的工作。
目前最成功的侵入式腦機接口也是Shenoy團隊于2017年在eLife雜志發表的一項研究。在那項研究中,包括T5(此項最新研究中的參與者)在內的三個肢體癱瘓的參與者,都在運動皮層植入了腦機接口,他們被要求全神貫注將光標從電腦屏幕上的一個鍵移動到另一個鍵,然后集中精力點擊那個鍵。
在那項研究中,T5創造了迄今為止的最高記錄:以每分鐘40個字符的速度抄寫顯示出來的句子。但這些侵入式腦機接口,和非侵入性的眼球追蹤器一樣,占用了用戶的視覺注意力,并且不能提供明顯更快的輸入速度。
如果說2017年研究的模式類似于打字,那么此次這項新研究則類似于手寫,而此前沒人想過直接手寫。Willett想知道,是否有可能利用書寫時引發的大腦信號,“我們想找到讓人們交流更快的新方法。”研究團隊因此與T5繼續合作。T5當時65歲,其在2007年因為脊髓損傷癱瘓,幾乎喪失了頸部以下的所有活動能力。
“腦轉文”腦機接口
Willett等人的新方法需要一種分類算法,能夠預測癱瘓用戶試圖書寫的26個字母或5個標點符號,這是具有挑戰性的技術,因為科學家們無法觀察到這些意圖。
為克服這一挑戰,Willett等人基于一種最初為語音識別開發的機器學習算法,重新設計了另一種算法。這使得他們能夠僅根據神經活動來估計參與者何時開始嘗試書寫一個字符。根據這些信息,研究團隊生成了一個帶有標簽的數據集,其中包含每個字符對應的神經活動模式。他們用這個數據集來訓練分類算法。
“當我們第一次開始探索手寫腦機接口的概念時,我們不知道在癱瘓多年后,嘗試的手寫動作是否仍能喚起強烈和可重復的神經活動模式。”
Willett對澎湃新聞記者表示,“令人興奮的是,當我們要求參與者來手寫不同的字母時,盡管他的手已經癱瘓十多年,我們仍然可以看到明顯的神經活動模式,甚至足以重現他想象中的那支筆的動作,并展現出他想寫的字母。”
研究參與者想象書寫一個字母或符號時,他腦中的傳感器可以感知到電活動的模式并轉化為書寫痕跡。(00:12)
為了實現準確的分類,Willett等人的分類算法還使用了現有的機器學習方法,以及一種叫做遞歸神經網絡(RNN)的人工神經網絡,這種神經網絡特別擅長預測順序數據。Rajeswaran等人在觀點文章中提到,利用RNN的能力前提是需要大量的訓練數據,但這些數據在神經接口中是有限的,因為很少有用戶愿意想象連續寫作數小時。
研究團隊則用一種被稱為數據增強的方法解決了該問題。在這種方法中,參與者先前產生的神經活動模式被用來產生句子,在這些句子上訓練RNN。他們還通過在神經活動模式中引入人為的變化來擴展他們的訓練數據,以模仿人類大腦中自然發生的變化。
在這項研究中,T5同樣需要集中精力,試圖用一支假想的筆在假想的本子上寫出單個字母。他把每個字母重復10次,讓軟件“學習”識別與他嘗試寫那個特定字母相關的神經信號。
在接下來數小時的測試中,T5被展示了幾組句子,并被要求在心里嘗試“手寫”每一個句子,沒有使用大寫字母。這些句子比如,“i interrupted, unable to keep silent,”和“within thirty seconds the army had landed.”。
隨著時間的推移,這些算法提高了它們區分代表不同字母或符號的神經放電模式的能力。算法對T5意圖寫的任何字母的解讀在大約半秒的延遲后出現在電腦屏幕上。
T5還被要求復制算法從未接觸過的句子。他最終能夠每分鐘生成90個字符,大約18個單詞。之后,他被要求回答開放性的問題(需要一些停頓來思考),他每分鐘寫了73.8個字符(平均接近15個單詞),是2017年研究中自由書寫記錄速度的三倍。
Willett等人的算法提供了令人印象深刻的準確分類。復制錯誤率大約是每18或19個字符中有一個錯誤;自由書寫錯誤率約為每11或12個字符中有一個。當研究人員通過包括預測語言模型(類似于智能手機上的自動糾錯功能)后,錯誤率明顯較低:復制的錯誤率低于1%,自由書寫的錯誤率略高于2%。
“與其他腦機接口相比,這些錯誤率相當低。”Shenoy說。
兩個微小的植入電極矩陣可以將控制手和手臂的腦區信息轉化為算法,再翻譯成屏幕上的字母。(00:10)
何時轉化為真正的產品?
值得注意的是,此次研究中,Willett等人得出另一重要結論。Willett對澎湃新聞記者表示,“這款腦機接口的速度比之前更快,這是由像書寫不同的字母這樣的復雜運動喚起的神經活動模式,更容易區分。我們發現,要求參與者手寫不同的字母,在他的大腦中喚起了非常獨特的神經活動模式。”
Willett等人認為,這使得他們能夠在更快的速度下同時達到比以前更高的準確性。
“當你只能記錄傳感器采集到的少量神經元時(與運動腦區的數百萬神經元相比),有非常不同的神經模式是有幫助的,意外混淆它們的幾率就會很低。這就是為什么復雜的運動,比如寫不同的字母,可能更容易解碼,復雜性使它們更獨特,彼此不同。”Willett進一步解釋道,相比之下,之前最先進的打字方式,“沿著直線移動到不同的鍵上,會喚起非常相似的神經活動模式,因為所涉及的只是一個有著不同角度或不同距離的直線運動。”
這也意味著,也許與我們直覺的認為相反,解碼復雜的行為比簡單的行為更有利,特別是在分類任務中。這些信息對未來的腦機接口研究將有重要的借鑒意義。
當然,這項研究也并非完美。在投入大規模臨床應用前,仍需進一步驗證該技術的使用壽命、安全性和效果。Rajeswaran等人在觀點文章中即寫道,該技術“需要擁有極佳的效果和使用益處,才能證明在患者腦部植入電極所產生的費用和風險是值得的。”
輸入速度并不是決定是否采用該技術的唯一因素。Rajeswaran等人認為,要使該設備能在整個生命周期內保持性能,比如遇到神經活動模式改變時表現如何,這可能還需要進一步的研究。繼續研究以測試該方法是否能推廣到其他用戶和實驗室之外的設置,這也將是至關重要的。
Rajeswaran等人還關注到另一個問題,即該方法將如何擴展并轉化為其他語言?Willett等人的研究也表明,有幾個字符寫起來會類似,比如r、v和u,因此比其他字符更難分類。“我們中的一個人(Rajeswaran)說泰米爾語,泰米爾語有247個字母,通常是密切相關的,所以可能很難分類。”他們在文章中寫道。
Willett則對澎湃新聞記者表示,要將這項技術轉化為真正的產品,就需要簡化它,用戶應該不需要花費太多時間來培訓它就能夠使用這款腦機接口。此外,它應該足夠智能,能夠自動跟蹤神經活動的實時變化,這樣用戶就不必每天停下來重新訓練系統。最后,微電極裝置應是無線且完全植入。
“這是一個公司創造一個真實世界的產品必須要完成的工作。”他表示,在這項研究中,他們只是進行了一個概念驗證的演示,“手寫腦機接口是一個令人興奮和潛在的可行方法,使得我們可以恢復與嚴重癱瘓的人的交流。”
一個新的更全面的系統
值得注意的是,Shenoy的團隊在設想,將手寫文本輸入作為一個更全面系統中的一部分,該系統還包括指向點擊,就像目前智能手機上使用的那樣,甚至還包括語音解碼。Shenoy說道,“擁有這兩種或三種模式并在它們之間切換是我們必然要做的。”
Shenoy說,接下來,研究團隊打算與無法說話的參與者合作,比如患有肌萎縮性脊髓側索硬化癥的人,這是一種退行性神經疾病,會導致運動和語言能力喪失。
“雖然現在手寫每分鐘可以接近20個單詞,但我們的語速往往在每分鐘125個單詞左右,這是補充手寫的另一個令人興奮的方向。如果將這些系統結合起來,可以為患者提供更多有效溝通的選擇。”Shenoy說。
Willett在接受澎湃新聞記者采訪時也類似提到,目前腦機接口的另一個令人興奮的方向是“語音解碼”。語音解碼腦機接口的工作原理是解碼不能說話的人試圖說話的動作,并將其翻譯成合成語音或文本。
“這種可能性令人興奮,因為語言是一種非??焖俚慕涣鞣绞?,但目前的語音腦接機口既缺乏準確性,也缺乏恢復通用會話所需的‘詞匯量’。”
他強調,解碼語音可能比解碼手寫更難,因為它更快,因此需要更高保真度的神經記錄和更好的算法來確保每個音節都能被準確識別。“因此,就目前而言,我們的手寫腦機接口是最快的工作腦機接口,足夠準確,可以恢復普遍的交流,因為用戶可以用它輸入任何單詞。”
盡管如此,Willett仍在努力改進語音解碼腦機接口。“我們認為,為手寫腦機接口開發的算法也可能對語音解碼非常有用,因為手寫和語音都是由語言構成的快速行為序列,它們有很多共同之處。”