撰文 | 馬雪薇
前言
根據(jù)世界衛(wèi)生組織(WHO) 2021 年公布的數(shù)據(jù),世界前 10 大死因共計(jì)造成 3900 萬(wàn)人死亡,占全球死亡總?cè)藬?shù)(6800 萬(wàn))的 57%,其主要與兩大類(lèi)疾病有關(guān),即心血管疾?。ㄈ缛毖孕呐K病、中風(fēng)等)和呼吸系統(tǒng)疾病(如肺結(jié)核、慢性阻塞性肺病、下呼吸道感染等)。
其中,呼吸系統(tǒng)疾病所導(dǎo)致的咳嗽或呼吸,包含很多關(guān)于我們健康狀況的信息。例如,臨床醫(yī)生使用類(lèi)似“喘息”的咳嗽聲來(lái)診斷百日咳,以及使用臨終呼吸來(lái)檢測(cè)急性心血管事件。
那么,在人工智能(AI)時(shí)代,我們是否可以利用這一技術(shù)從這些聲音數(shù)據(jù)中提取健康信息,進(jìn)而更好地監(jiān)測(cè)我們的身體狀況呢?
來(lái)自谷歌、贊比亞傳染病研究中心結(jié)核病科的研究團(tuán)隊(duì)在這一方向邁出了重要一步,他們合作推出了生物聲學(xué)基礎(chǔ)模型 HeAR(Health Acoustic Representations),旨在幫助他們監(jiān)聽(tīng)人類(lèi)聲音并標(biāo)記疾病早期跡象。相關(guān)研究論文以“HeAR - Health Acoustic Representations”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
據(jù)介紹,他們?cè)趶亩鄻踊胰プR(shí)別化的數(shù)據(jù)集中精心挑選的 3 億個(gè)音頻數(shù)據(jù)上訓(xùn)練了 HeAR,還特別使用了大約 1 億個(gè)咳嗽聲音來(lái)訓(xùn)練這一“咳嗽模型”。
HeAR 能夠辨別與健康相關(guān)聲音中的模式,在廣泛任務(wù)上的平均排名高于其他模型,且能夠跨麥克風(fēng)泛化。使用 HeAR 訓(xùn)練的模型也以較少的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了高性能,這在常常缺乏數(shù)據(jù)的醫(yī)療研究領(lǐng)域是一個(gè)關(guān)鍵因素。HeAR 現(xiàn)在可供研究人員使用,從而幫助加速開(kāi)發(fā)具有較少數(shù)據(jù)、設(shè)置和計(jì)算要求的定制生物聲學(xué)模型。
StopTB Partnership 數(shù)字健康專(zhuān)家 Zhi Zhen Qin 表示:“像 HeAR 這樣的解決方案將使 AI 驅(qū)動(dòng)的聲學(xué)分析在肺結(jié)核篩查和檢測(cè)方面大有用處,將為最需要的人提供一種可能影響較小、易于獲取的工具。”
未來(lái),研究團(tuán)隊(duì)希望通過(guò)這項(xiàng)研究,推進(jìn)在肺結(jié)核、胸部、肺和其他疾病領(lǐng)域的診斷工具和監(jiān)測(cè)解決方案的開(kāi)發(fā),并幫助改善全球社區(qū)的健康結(jié)果。
如今,印度的呼吸健康公司 Salcit Technologies 基于此開(kāi)發(fā)了一款名為 Swaasa 的產(chǎn)品,使用 AI 分析咳嗽聲音并評(píng)估肺部健康。該公司正在探索 HeAR 如何幫助擴(kuò)展其生物聲學(xué) AI 模型的功能。
一聲咳嗽,即可檢測(cè)疾病
HeAR 系統(tǒng)由三個(gè)主要部分組成。通過(guò)自我監(jiān)督學(xué)習(xí),HeAR 系統(tǒng)利用大量未標(biāo)記的音頻數(shù)據(jù)學(xué)習(xí)通用的音頻表示,并能夠遷移到各種健康聲學(xué)任務(wù)中。
圖|HeAR 系統(tǒng)概況
在數(shù)據(jù)采集步驟,研究團(tuán)隊(duì)使用了一個(gè)健康聲學(xué)事件檢測(cè)器。這是一個(gè)多標(biāo)簽分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)(CNN),用于識(shí)別 2 秒音頻片段中是否存在 6 種非語(yǔ)音健康聲學(xué)事件:咳嗽、嬰兒咳嗽、呼吸、清嗓子、笑聲和說(shuō)話(huà)。該檢測(cè)器使用 FSD50K 和 FluSense 數(shù)據(jù)集進(jìn)行訓(xùn)練,并通過(guò)音頻片段中的標(biāo)簽(例如“咳嗽”、“打噴嚏”和“呼吸”)進(jìn)行標(biāo)注。
論文使用了兩個(gè)數(shù)據(jù)集,一部分是從 30 億個(gè)公共非版權(quán) YouTube 視頻中提取的 2 秒音頻片段,總共有 3.133 億個(gè)片段或約 174000 小時(shí)的音頻。這些片段使用健康聲學(xué)事件檢測(cè)器進(jìn)行篩選。另一部分由贊比亞傳染病研究中心收集,包含來(lái)自 599 名疑似肺結(jié)核患者的咳嗽音頻錄音和胸部 X 光片。
研究團(tuán)隊(duì)使用掩碼自編碼器在包含 3.13 億個(gè)兩秒鐘長(zhǎng)音頻片段的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過(guò)線(xiàn)性探測(cè),在跨越 6 個(gè)數(shù)據(jù)集的 33 個(gè)健康聲學(xué)任務(wù)基準(zhǔn)上,HeAR 在所有健康音頻嵌入模型中的表現(xiàn)達(dá)到了 SOTA。
圖|HeAR 在 33 個(gè)健康音頻任務(wù)中取得了最高的平均排名(MRR = 0.708),超越了所有其他基線(xiàn)模型。
HeAR 在 FSD50K 和 FluSense 數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型,特別是在使用 FSD50K 訓(xùn)練的模型中排名第二。
圖|健康聲學(xué)事件檢測(cè)任務(wù)在 FSD50K 和 FluSense 數(shù)據(jù)集上的性能比較。
HeAR 在 10/14 個(gè)咳嗽推理任務(wù)中表現(xiàn)優(yōu)于基線(xiàn)模型,包括人口統(tǒng)計(jì)、生活方式。在 TB 和 CXR 任務(wù)中,其表現(xiàn)與最佳模型相當(dāng)。
圖|咳嗽推理任務(wù)的性能比較。
HeAR 在 SpiroSmart 數(shù)據(jù)集上的 4/5 個(gè)肺功能測(cè)試任務(wù)和性別分類(lèi)任務(wù)中表現(xiàn)優(yōu)于基線(xiàn)模型。
圖|肺功能測(cè)試任務(wù)的性能比較。
HeAR 在 CIDRZ 數(shù)據(jù)集上的表現(xiàn)不受不同錄音設(shè)備的影響,對(duì)不同設(shè)備具有魯棒性。此外,HeAR 在訓(xùn)練數(shù)據(jù)較少的情況下也能取得良好的性能,在標(biāo)注數(shù)據(jù)稀缺的醫(yī)療研究中更具優(yōu)勢(shì)。
然而,HeAR 也具有一定的局限性。例如,線(xiàn)性探針無(wú)法完全發(fā)揮模型的性能潛力,部分?jǐn)?shù)據(jù)集規(guī)模較小且存在類(lèi)不平衡問(wèn)題,且 HeAR 等模型較大,難以在手機(jī)等設(shè)備上運(yùn)行。
研究團(tuán)隊(duì)表示,未來(lái)可以考慮微調(diào)模型或加入更多特征來(lái)提升性能,以及收集更多數(shù)據(jù)并改進(jìn)數(shù)據(jù)預(yù)處理方法,還可以考慮研究模型壓縮和量化技術(shù),使其能夠在本地設(shè)備上運(yùn)行。
AI 輔助診斷疾病,大有可為
從輔助醫(yī)生到獨(dú)立診斷疾病,AI 在醫(yī)療領(lǐng)域的應(yīng)用越來(lái)越廣泛,且展現(xiàn)了巨大的潛力。
今年 6 月,來(lái)自倫敦帝國(guó)理工學(xué)院和劍橋大學(xué)的研究團(tuán)隊(duì)訓(xùn)練了 AI 模型 EMethylNET,通過(guò)觀(guān)察 DNA 甲基化模式,從非癌組織中識(shí)別出 13 種不同類(lèi)型的癌癥(包括乳腺癌、肝癌、肺癌和前列腺癌等),準(zhǔn)確率高達(dá) 98.2%。
7 月,由波士頓大學(xué)研究團(tuán)隊(duì)及其合作者開(kāi)發(fā)的 AI 工具,有望幫助我們(同時(shí))診斷 10 種不同類(lèi)型的癡呆癥,將神經(jīng)科醫(yī)生的準(zhǔn)確率提高了 26% 以上。
近日,針對(duì)兒童的“隱形殺手”自閉癥,AI 也有了突破。由卡羅林斯卡學(xué)院研究團(tuán)隊(duì)開(kāi)發(fā)的一種多模態(tài)數(shù)據(jù)分析 AI 模型,不僅可以在自閉癥患兒 12 個(gè)月左右時(shí)發(fā)現(xiàn)患病的早期跡象,而且對(duì)兩歲以下兒童識(shí)別的準(zhǔn)確率達(dá)到了 80.5%,更重要的是,整個(gè)過(guò)程只需要相對(duì)有限的信息。
可以預(yù)見(jiàn),AI 將在不久的將來(lái)幫助人類(lèi)診斷更多疾病,為醫(yī)療健康領(lǐng)域帶來(lái)更多可能性。