版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

DeepMind 利用無監(jiān)督學(xué)習(xí)開發(fā) AlphaMissense,預(yù)測 7100 萬種基因突變

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

人類基因組共有 31.6 億個堿基對,無時無刻不在經(jīng)歷復(fù)制、轉(zhuǎn)錄和翻譯,也隨時有著出錯突變的風(fēng)險。

錯義突變是基因突變中的一種常見形式,然而人類目前只觀察到了其中的一小部分,能夠解讀的更是只有 0.1%。

準(zhǔn)確預(yù)測錯義突變的作用,對于罕見病、遺傳病的研究和防治有著重要作用。這次,DeepMind 又出手了。

作者 | 雪菜

編輯 | 三羊、鐵塔

本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺~

人類基因組共有 31.6 億個堿基對。這些堿基對每天會經(jīng)歷復(fù)制、轉(zhuǎn)錄、翻譯,最終表達成為蛋白質(zhì),調(diào)控人類日常生理活動。

在如此龐大的工作量下,即使是精細(xì)的人體也很難做到毫無差錯。稍有不慎,堿基對就可能配位錯誤,導(dǎo)致基因突變,日積月累甚至引發(fā)癌癥。

錯義突變 (Missense Mutation) 是一種常見的基因突變形式。由于 DNA 中堿基突變,翻譯得到的氨基酸發(fā)生了變化,最終導(dǎo)致整個蛋白質(zhì)功能被破壞。

圖 1:錯義突變示意圖。由于 DNA 中腺嘌呤核苷酸突變?yōu)轼B嘌呤核苷酸,翻譯得到的氨基酸由谷氨酰胺變?yōu)榻z氨酸

目前人類觀察到了 400 多萬種錯義突變,但僅能將 2% 的錯義突變歸類為致病突變或是良性突變。

準(zhǔn)確預(yù)測錯義突變的作用能夠加深人類對于罕見病的理解,并針對潛在的遺傳病進行預(yù)防和治療。雖然變異效應(yīng)多重分析 (MAVEs) 可以對蛋白質(zhì)的突變進行系統(tǒng)的分析,并準(zhǔn)確預(yù)測其臨床效果,但這一方法需要大量的人力物力,難以對所有錯義突變可能進行全面的分析。

為此,DeepMind 通過 AlphaFold 分析了蛋白質(zhì)的整體結(jié)構(gòu),并結(jié)合弱標(biāo)簽學(xué)習(xí)和無監(jiān)督學(xué)習(xí)開發(fā)了 AlphaMissense,對錯義突變的后果進行了系統(tǒng)的分析。AlphaMissense 利用 ClinVar 數(shù)據(jù)集進行了驗證,預(yù)測正確率達到 90%。

隨后,AlphaMissense 對人類可能出現(xiàn)的 7,100 萬種錯義突變進行了預(yù)測,其中 32% 可能為致病性突變,57% 可能為良性突變。這些結(jié)果將極大促進分子生物學(xué)、基因組學(xué)、臨床醫(yī)學(xué)等學(xué)科的發(fā)展。這一成果已發(fā)表于「Science」。

圖 2:AlphaMissense 對 7,100 萬種錯義突變的預(yù)測結(jié)果(上)及人類目前觀察到和確認(rèn)的結(jié)果(下)

相關(guān)成果已發(fā)表于「Science」

論文鏈接:https://www.science.org/doi/10.1126/science.adg7492

實驗過程

AlphaMissense:AlphaFold + 微調(diào)

將一串氨基酸序列輸入 AlphaMissense 后,它會對序列中任一氨基酸變化的致病性進行預(yù)測。

AlphaMissense 的實現(xiàn)和 AlphaFold 非常相似,只在架構(gòu)上做了細(xì)微的調(diào)整。

圖 3:AlphaMissense 的結(jié)構(gòu)示意圖

AlphaMissense 的訓(xùn)練集來源廣泛,但主要來自于人類和非人靈長類。其中,來源于人類的良性錯義突變有 1,248,533 個,致病錯義突變則從可能出現(xiàn)但尚未被觀察到的 65,314,044 個突變中抽取。

AlphaMissense 的訓(xùn)練包括兩步。首先,同 AlphaFold 一樣,AlphaMissense 需要預(yù)測多序列對比 (Multiple Sequence Alignments) 中被隨機掩碼的氨基酸,進而預(yù)測單鏈蛋白質(zhì)的結(jié)構(gòu),并進行蛋白質(zhì)語言建模。

隨后,研究人員利用人類蛋白質(zhì)對 AlphaMissense 進行微調(diào) (fine-tuning),并設(shè)定了模型的輸出目標(biāo),即錯義突變的致病性。

由于未被觀察到的錯義突變中存在相當(dāng)數(shù)量的良性突變,但在訓(xùn)練過程中都將其歸為了致病突變,因此 AlphaMissense 訓(xùn)練集的噪音很大。為了提升訓(xùn)練集的數(shù)量和質(zhì)量,研究人員使用自蒸餾 (self-distillation) 的方式對數(shù)據(jù)進行了過濾。

臨床數(shù)據(jù)驗證:不同數(shù)據(jù)集中的表現(xiàn)

訓(xùn)練完成后,利用標(biāo)注后的臨床數(shù)據(jù) (ClinVar 數(shù)據(jù)集)、罕見發(fā)育障礙患者中的新發(fā)突變 (de novo variants) 和 ProteinGym 中的 MAVE 結(jié)果對 AlphaMissense 進行驗證。

首先,研究人員對 AlphaMissense 在 ClinVar 數(shù)據(jù)集中的表現(xiàn)進行了評價。在對 18,924 個突變位點進行分析后,AlphaMissense 的 auROC 為 0.940,較之前最先進的進化模型 (EVE) 有所提升 (0.911)。

在對錯義突變進行臨床評價時,人們一般會關(guān)注特定疾病相關(guān)的基因。因此,分辨出這些基因中良性和致病的錯義突變尤為重要。研究人員利用 AlphaMissense 對 ClinVar 中的 612 個基因進行分析,其 auROC 為 0.950,優(yōu)于 EVE 的 0.921。

最后,研究人員分析了 AlphaMissense 在解密發(fā)育障礙 (DDD, Deciphering Developmental Disorders) 數(shù)據(jù)集中的預(yù)測結(jié)果。AlphaMissense 的 auROC 為0.809,與 PrimateAI 的 0.797 相當(dāng)。

圖 4:AlphaMissense 和其他模型在不同數(shù)據(jù)集中性能對比

A:對 ClinVar 中突變位點的分析;

B:對 ClinVar 中基因的分析;

C:對 DDD 數(shù)據(jù)集的分析。

同時,AlphaMissense 對 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 數(shù)據(jù)的預(yù)測結(jié)果也較其他模型更為優(yōu)異。上述結(jié)果說明,AlphaMissense 在多個數(shù)據(jù)集中表現(xiàn)優(yōu)于現(xiàn)有模型。

總體預(yù)測性能:反映蛋白質(zhì)突變趨勢

用臨床數(shù)據(jù)對 AlphaMissense 進行驗證之后,研究人員利用 AlphaMissense 對 2.16 億個氨基酸在人類常見的 19,233 個蛋白質(zhì)中可能發(fā)生的突變進行了預(yù)測,最終得到了 7,100 萬種錯義突變的預(yù)測結(jié)果。

AlphaMissense 的致病性預(yù)測結(jié)果在 0-1 之間,越接近 1 說明致病可能性越高。由于絕大多數(shù)預(yù)測結(jié)果接近 0 和 1,因此 0.2 至 0.8 之間的數(shù)據(jù)可能不太準(zhǔn)確。最終,他們將預(yù)測結(jié)果分為三類:可能致病、可能良性和無法確定。

為對 AlphaMissense 的預(yù)測性能進行整體評價,研究人員計算了所有蛋白質(zhì)的單個氨基酸致病性。結(jié)果顯示,芳香族氨基酸和半胱氨酸的突變更容易引發(fā)疾病,與實際結(jié)果一致,因為這兩種氨基酸起到了維持蛋白質(zhì)結(jié)構(gòu)的作用。

圖 5:AlphaMissense 的預(yù)測結(jié)果熱圖,色塊代表 2.16 億個氨基酸變化在蛋白質(zhì)組中的平均致病性

將 AlphaMissense 的預(yù)測結(jié)果和 AlphaFold 預(yù)測的蛋白質(zhì)結(jié)構(gòu)可視化之后,我們可以看到這些蛋白質(zhì)的突變趨勢。比如,蛋白質(zhì)結(jié)構(gòu)紊亂的區(qū)域與良性突變的發(fā)生區(qū)域相對應(yīng),這與蛋白質(zhì)組學(xué)的預(yù)測結(jié)果也是一致的。

圖 6:ACMG 和 MAVE 數(shù)據(jù)集中部分蛋白質(zhì)的可視化結(jié)果

左側(cè)為 AlphaMissense 預(yù)測的致病性,可能致病的錯義突變?yōu)榧t色,可能良性的錯義突變?yōu)樗{色,已被收錄于 ClinVar 數(shù)據(jù)集的突變以實心圓標(biāo)注。右側(cè)為 AlphaFold 預(yù)測的蛋白質(zhì)結(jié)構(gòu),不同顏色表示這一區(qū)域突變致病性,與 AlphaMissense 相對應(yīng)。

預(yù)測準(zhǔn)確率:與 MAVE 結(jié)果一致性

為調(diào)查 AlphaMissense 和 MAVE 結(jié)果之間的一致性,研究人員利用 AlphaMissense 對兩組 MAVE 數(shù)據(jù)進行了分析。與其他預(yù)測方法相比,AlphaMissense 與 MAVE 數(shù)據(jù)最為接近。

圖 7:AlphaMissense 和其他模型與 MAVE 預(yù)測結(jié)果的斯皮爾曼相關(guān)系數(shù),其中AlphaMissense 結(jié)果最好

隨后,他們又將 AlphaMissense 的預(yù)測數(shù)據(jù)和實驗驗證過的錯義突變致病性進行了對比。SHOC2 蛋白可以與 MRAS 和 PP1C 蛋白形成復(fù)合物,激活 Ras-MAPK 癌癥通路。AlphaMissense 與 MAVE 對這一突變和 Ras 癌癥細(xì)胞的相關(guān)性進行了預(yù)測,得到的斯皮爾曼相關(guān)系數(shù)為 0.47,優(yōu)于其他模型 (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

圖 8:不同模型對 MAVE 數(shù)據(jù)集中錯義突變的預(yù)測結(jié)果

進一步的,研究人員探究了 AlphaMissense 對 SHOC2 蛋白不同區(qū)域氨基酸錯義突變致病性的預(yù)測結(jié)果。在 SHOC2 的前 80 個氨基酸中,MAVE 預(yù)測第 63-74 號氨基酸突變是致病的,因為這一區(qū)域會通過 RVxF 與 PP1C 蛋白結(jié)合。AlphaMissense 是唯一一個識別出這一重要區(qū)域的模型。

圖 9:AlphaMissense 對 SHOC2 蛋白的預(yù)測結(jié)果

A:不同模型對 SHOC2 蛋白前 200 氨基酸突變致病性的預(yù)測結(jié)果。自上而下分別為實際情況 (MAVE)、AlphaMissense 和 EVE;

B:SHOC2 蛋白(紅色和藍色)和 MRAS(黃色)、PP1C(金色)蛋白組成的復(fù)合體結(jié)構(gòu)圖。

而且,AlphaMissense 能夠反映出不同種類氨基酸錯義突變后的結(jié)果。對于 SHOC2 蛋白而言,AlphaMissense 的預(yù)測結(jié)果與實際結(jié)果最為接近。

圖 10:不同模型對 SHOC2 中氨基酸突變致病性預(yù)測與 MAVE 結(jié)果的相關(guān)性

上述結(jié)果共同說明,AlphaMissense 的預(yù)測結(jié)果與 MAVE 相當(dāng),能夠?qū)蝈e義突變的結(jié)果進行準(zhǔn)確的預(yù)測。

最后,Deepmind 將這一模型和預(yù)測結(jié)果都開源公布在了社區(qū)中,希望這種結(jié)論能夠為其他學(xué)科的研究提供幫助。

模型鏈接:https://github.com/deepmind/alphamissense

基因突變:遙不可及又如影隨形

提到基因突變,我們很容易想到 X 光、核輻射、亞硝酸鹽等危險元素,或者是電影生化危機、綠巨人之中的橋段,覺得這些離我們過于遙遠。誠然,我們在生活中接觸到的輻射非常少,但基因突變還是發(fā)生在生活中的每時每刻,也切實地改變了我們的生活。
在生活中,我們不可避免地會接觸到輻射源,比如太陽光。太陽光中 6% 的輻射來源于紫外線,而紫外線就是致癌因素之一,因此長時間暴曬會增加皮膚癌的危險。

即使不接觸輻射源,DNA 在復(fù)制、轉(zhuǎn)錄、翻譯的時候也不可避免地犯一些錯誤,引起基因突變,只是這些突變可能是良性的,或是被免疫機制及時清除了。

但同時,基因突變也為我們的生活提供了便利,尤其是在農(nóng)業(yè)生產(chǎn)中。農(nóng)作物突變體能夠提高作物的產(chǎn)量,提升作物耐鹽堿的能力,甚至幫助防治蟲害。對這些突變體進行繁育篩選后,這些優(yōu)良的特性就能保留下來,提升糧食產(chǎn)量。

圖 11:不同品種的玉米突變體

然而,人體基因突變的可能性太多,我們目前了解到的不過滄海一粟。借助 AlphaMissense,我們能夠?qū)蛲蛔兊慕Y(jié)果進行相對可靠的預(yù)測,再加以反推,也許就能找到遺傳病、罕見病背后的機制,為疾病的防治提供新方法。

同時,AlphaMissense 還為其他領(lǐng)域的研究提供了素材。也許不久之后,我們就能看到 AlphaMissense 對其他物種基因突變的解讀,進而合理利用基因突變,讓基因工程為我們的生活帶來更多福祉。

參考鏈接:

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺~

評論
東明集董玉霞
少傅級
科技創(chuàng)新
2023-10-04
西吉縣第七中學(xué)馬慧娟
少傅級
人類基因組共有 31.6 億個堿基對,無時無刻不在經(jīng)歷復(fù)制、轉(zhuǎn)錄和翻譯,也隨時有著出錯突變的風(fēng)險。錯義突變是基因突變中的一種常見形式,然而人類目前只觀察到了其中的一小部分,能夠解讀的更是只有 0.1%。準(zhǔn)確預(yù)測錯義突變的作用,對于罕見病、遺傳病的研究和防治有著重要作用。這次,DeepMind 又出手了
2023-10-03
黎通
庶吉士級
已閱讀。
2023-09-30