版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

中風(fēng)失語 18 年,AI + 腦機(jī)接口幫她「意念發(fā)聲」

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

人與人交往中,說話表達(dá)是最基本的能力和方式,可世界上有很多人,卻「有口難言」。

「失語癥」中,由中風(fēng)引起的最為常見。他們的聲音無法傳達(dá),他們的訴求不為人所知,他們遭受著社交孤立,他們的沉默震耳欲聾。

每一個(gè)因中風(fēng)而失語之人,無不渴望恢復(fù)完全、自然的交流能力,盡管目前全世界范圍內(nèi)癱瘓無法根治,但如今在 AI 加持下,喪失說話能力的癱瘓患者也可以重新恢復(fù)聲音,并以豐富的表情、動(dòng)作與人實(shí)時(shí)交流。

作者 | 鐵塔

編輯 | 三羊

本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~

茨威格曾言,「一個(gè)人生命中最大的幸運(yùn),莫過于在他的人生中途,即他年富力強(qiáng)的時(shí)候發(fā)現(xiàn)了自己的使命。

而人最大的不幸是什么呢?

在小編看來,一個(gè)人生命中最大的不幸,莫過于在風(fēng)華正茂的年紀(jì),突然喪失所有語言和行動(dòng)能力——一夕之間,夢想、事業(yè)、愿望統(tǒng)統(tǒng)化為泡影,生活被整個(gè)掀翻。

Ann 就是其中不幸的代表。

三十而立,中風(fēng)失語

2005 年某天,一向身體倍兒棒的 Ann 突然出現(xiàn)頭暈、吐字不清、四肢癱瘓和肌無力等癥狀,經(jīng)診斷,她患上了腦干梗死(即我們?nèi)粘Kf的「中風(fēng)」),伴有左椎動(dòng)脈夾層和基底動(dòng)脈閉塞。

這場毫無預(yù)兆的中風(fēng)給 Ann 帶來了名為「閉鎖綜合征」的副產(chǎn)品——罹患此病者,所有感官意識俱在,但無法調(diào)動(dòng)身體任何一塊肌肉,患者既不能活動(dòng),也不能自主說話,有的甚至無法呼吸。

正如「閉鎖」字面所體現(xiàn)的,帶領(lǐng)常人走遍千山萬水的身體,成了封印患者靈魂的牢籠。

彼時(shí), Ann 才 30 歲,結(jié)婚 2 年零 2 個(gè)月,女兒剛出生 13 個(gè)月,在加拿大一所高中當(dāng)數(shù)學(xué)老師。「一夜之間,我的一切都被奪走了。」 Ann 后來借助設(shè)備,在電腦上緩慢地敲下了這句話。

參與研究的 Ann

經(jīng)過多年的物理治療, Ann 才可以呼吸、稍微轉(zhuǎn)動(dòng)頭部、眨眨眼、說幾句話,但僅此而已。

要知道,正常生活中,一般人的講話語速在 160-200 字/分鐘之間,而 2007 年來自美國亞利桑那大學(xué)心理學(xué)系的研究結(jié)果顯示:男性平均每天要說 15,669 個(gè)單詞,女性平均要說 16,215 個(gè)單詞(平均一個(gè)單詞對應(yīng) 1.5-2 個(gè)漢字)。

在語言是人際交流主要手段的世界里,可以想見,表達(dá)受限的 Ann 有多少需求被堙滅在無聲之中?伴隨失語而失去的,不僅僅是生活質(zhì)量,乃至人格和身份。而全世界又有多少癱瘓失語者和 Ann 處于同樣的境地?

癱瘓18年,重新開口

恢復(fù)完全、自然的交流能力,是每一個(gè)因癱瘓而失語之人的最大渴望。在科技高度發(fā)達(dá)的今天,有沒有辦法借助技術(shù)的力量,將人際交流的能力還給患者?

有!

近期,來自美國加州大學(xué)舊金山分校和加州大學(xué)伯克利分校的研究團(tuán)隊(duì)利用 AI 開發(fā)出一種新的腦機(jī)技術(shù),讓失語 18 年的 Ann 重新「開口說話」,并基于數(shù)字化身產(chǎn)生生動(dòng)的面部表情,幫助患者以符合正常人社交的速度和質(zhì)量與他人實(shí)時(shí)交談。

Ann 借助數(shù)字化身與人交談

這是人類歷史上首次從大腦信號中合成語音和面部表情的創(chuàng)舉!

加州大學(xué)團(tuán)隊(duì)此前的研究表明,從癱瘓者的大腦活動(dòng)中解碼語言是可能的,但只能以文本的形式輸出,而且速度和詞匯量有限。

此番他們想更進(jìn)一步:既能實(shí)現(xiàn)更快的大詞匯量文本交流,又能恢復(fù)與說話相關(guān)的語音和面部動(dòng)作。

基于機(jī)器學(xué)習(xí)與腦機(jī)接口技術(shù),研究團(tuán)隊(duì)實(shí)現(xiàn)了以下成果,發(fā)表于 2023 年 8 月 23 日的《Nature》上:

? 對于文本,將受試者的腦信號以每分鐘 78 個(gè)單詞的速度解碼為文本,平均單詞錯(cuò)誤率為 25%,比受試者當(dāng)前使用的通信設(shè)備(14 個(gè)單詞/分鐘)快了 4 倍多;

?對于語音音頻,將腦信號快速合成為可理解和個(gè)性化的聲音,與受試者受傷前的聲音一致;

?對于面部數(shù)字化身,實(shí)現(xiàn)了語音和非語音交流手勢的虛擬面部運(yùn)動(dòng)控制。

論文鏈接:

https://www.nature.com/articles/s41586-023-06443-4

你一定很好奇,這種劃時(shí)代的奇跡怎么實(shí)現(xiàn)的?接下來,咱們具體拆解一下這篇論文,看研究人員如何妙手回春。

1.底層邏輯:腦信號→語音+面部表情

人類大腦通過外周神經(jīng)和肌肉組織實(shí)現(xiàn)信息輸出,而語言能力由大腦皮質(zhì)中的「語言中樞」所控制。

中風(fēng)患者之所以失語,原因在于血液循環(huán)受阻,大腦語言區(qū)域因缺少氧氣和重要營養(yǎng)物質(zhì)而受損,導(dǎo)致一個(gè)或多個(gè)語言溝通機(jī)制無法正常運(yùn)作,從而出現(xiàn)語言功能障礙。

對此,加州大學(xué)舊金山分校和伯克利分校的研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)「多模態(tài)語音神經(jīng)假體」,使用大范圍、高密度的皮質(zhì)腦電圖 (ECoG) 來解碼分布在整個(gè)感覺皮層 (SMC) 發(fā)音聲道表征的文本和視聽語音輸出,即從源頭上捕捉大腦信號,通過技術(shù)手段將其「翻譯」成對應(yīng)的文本、語音甚至面部表情。

聲道癱瘓患者的多模態(tài)語音解碼

2.過程及實(shí)現(xiàn):腦機(jī)接口 + AI 算法

首先是物理手段。

研究人員通過硬膜在 Ann 大腦左半球的腦頂表面植入了一個(gè)高密度腦電圖陣列經(jīng)皮底座連接器,覆蓋與語言產(chǎn)生和語言感知相關(guān)的區(qū)域。

該陣列由 253 個(gè)圓盤狀電極組成,用于攔截原本傳送到 Ann 舌頭、下巴、喉嚨及臉部肌肉的大腦信號。一根電纜插入固定在 Ann 頭上的端口,將電極與一組計(jì)算機(jī)相連。

電極陣列植入受試者大腦皮層表面的語言控制區(qū)

其次是算法構(gòu)建。

為識別 Ann 獨(dú)特的大腦語音信號,研究團(tuán)隊(duì)與她一起花費(fèi)了幾周時(shí)間來訓(xùn)練和評估深度學(xué)習(xí)模型。

研究人員基于 nltk Twitter 語料庫和 Cornell 電影語料庫創(chuàng)建了 1,024 個(gè)單詞的通用句子集,指示 Ann 以自然語速無聲說話。她一遍又一遍地從1,024 個(gè)單詞的會(huì)話詞匯中默念不同的短語,直到計(jì)算機(jī)識別出與這些聲音相關(guān)的大腦活動(dòng)模式。

值得注意的是,這個(gè)模型并非訓(xùn)練 AI 識別整個(gè)單詞,而是創(chuàng)建了一個(gè)系統(tǒng)從「音素」中解碼單詞,如「Hello」包含四個(gè)音素:「HH」、「AH」、「L」和「OW」。

基于這種方法,計(jì)算機(jī)只需學(xué)習(xí) 39 個(gè)音素就能解讀任何英語單詞,既增進(jìn)了準(zhǔn)確性,又將速度提升了 3 倍。

注:音素是語言的最小聲音單位,可描述語音的發(fā)音特征,包括發(fā)音部位、發(fā)音方式和聲帶振動(dòng)等,如 an 的音素由 /?/ 和 /n/ 組成。

這個(gè)音素解碼的過程,類似嬰兒學(xué)說話的過程。根據(jù)目前發(fā)展語言學(xué)界較為公認(rèn)的觀點(diǎn),剛出生的嬰兒就能分辨全世界語言中的 800 個(gè)音素。學(xué)齡前兒童可以不懂詞句的寫法與意思,但卻能通過對音素的感知、區(qū)分和模仿來逐漸學(xué)會(huì)發(fā)音和理解語言。

最后是語音和面部表情合成。

基礎(chǔ)已經(jīng)打完,接下來是語音和面部表情的顯化呈現(xiàn),研究人員通過語音合成和數(shù)字化身來解決這個(gè)問題。

語音方面,研究人員開發(fā)了一種合成語音算法,使用了 Ann 中風(fēng)前的聲音錄音,盡可能使數(shù)字化身的聲音聽起來像她。

面部表情上, Ann 的數(shù)字化身由 Speech Graphics 公司開發(fā)的軟件創(chuàng)建而成,呈現(xiàn)為屏幕上的女性臉部動(dòng)畫。

研究人員定制了機(jī)器學(xué)習(xí)過程,使軟件與 Ann 試圖說話時(shí)大腦發(fā)出的信號相協(xié)調(diào),從而表現(xiàn)出下巴張開和閉合、嘴唇突出和收縮、舌頭上下運(yùn)動(dòng),以及表達(dá)快樂、悲傷和驚訝的面部運(yùn)動(dòng)及手勢。

Ann 正與研究人員一起進(jìn)行算法訓(xùn)練

未來展望

加州大學(xué)舊金山分校神經(jīng)外科主任、醫(yī)學(xué)博士 Edward Chang 表示,「 我們的目標(biāo)是恢復(fù)一種完整的、具體的溝通方式,這是我們與他人交談最自然的方式……將可聽到的語言與真人化身結(jié)合起來的目標(biāo),能讓人類語言交流得到充分體現(xiàn),而這遠(yuǎn)遠(yuǎn)不止語言?!?/p>

研究團(tuán)隊(duì)的下一步是創(chuàng)建一個(gè)無線版本,擺脫腦機(jī)接口的物理連接,使癱瘓的人們能利用這項(xiàng)技術(shù)自如地控制個(gè)人手機(jī)和電腦,而這將對他們的獨(dú)立性和社會(huì)交往產(chǎn)生深遠(yuǎn)影響。

從手機(jī)上的語音助手、電子刷臉支付到工廠里的機(jī)械臂、生產(chǎn)線上的分揀機(jī)器人,AI 正在延伸人類的四肢與五官,并逐漸滲透到我們生產(chǎn)生活的方方面面。

科研人員關(guān)注癱瘓失語者這一特殊群體,利用AI的力量幫助其恢復(fù)自然的交流能力,有望促進(jìn)患者與親友之間的聯(lián)絡(luò),擴(kuò)大他們重新獲得人際互動(dòng)的機(jī)會(huì),并最終提高患者的生活質(zhì)量。

我們?yōu)檫@一成就感到振奮,期待更多 AI 造福人類的捷報(bào)傳來。

參考鏈接:

[1] https://www.sciencedaily.com/releases/2023/08/230823122530.htm

[2] http://mrw.so/6nWwSB

本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~

評論
追夢人C·hui
大學(xué)士級
AI技術(shù)的發(fā)展,解決了中風(fēng)“失語癥”患者“有口難言”之痛,相信未來還會(huì)傳來更多的福音和捷報(bào)!
2023-09-17
科普老兵聞向東
大學(xué)士級
隨著人工智能的不斷發(fā)展,相信人工智能會(huì)滲透到醫(yī)療領(lǐng)域的每一個(gè)角落,進(jìn)而使醫(yī)療水平實(shí)現(xiàn)大跨步的提高。
2023-09-17
坦 蕩 蕩
少師級
Ai在諸多領(lǐng)域影響著人類的生活,但愿通過腦機(jī)接口能給失語人群帶來福音。
2023-09-17