破解基因組的奧秘一直是生物科學(xué)的前沿挑戰(zhàn),如何讓人工智能(AI)讀懂 DNA 的復(fù)雜信息,并用它來(lái)設(shè)計(jì)和操控生命的“程序代碼”?
通過(guò)深度學(xué)習(xí)算法,AI 不僅能識(shí)別基因組中細(xì)微的模式,還可以生成完整的基因序列,為基因編輯和新藥開(kāi)發(fā)提供前所未有的支持。
今日凌晨,斯坦福大學(xué)化學(xué)工程助理教授 Brian L. Hie 團(tuán)隊(duì)以封面文章的形式在權(quán)威科學(xué)期刊 Science 上發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究成果 —— Evo,一個(gè)能夠解碼和設(shè)計(jì) DNA、RNA 和蛋白質(zhì)序列的大規(guī)?;蚪M基礎(chǔ)模型。
據(jù)介紹,Evo 模型基于 3000 億 DNA token 訓(xùn)練,能夠在長(zhǎng)序列的單堿基分辨率下進(jìn)行預(yù)測(cè)和生成,尤其在跨物種的基因預(yù)測(cè)上取得了超越特定模型的表現(xiàn)。
Evo 模型專為捕捉生物學(xué)中兩個(gè)核心方面:中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則揭示了 DNA、RNA 和蛋白質(zhì)的統(tǒng)一信息流,而進(jìn)化跨越了分子、途徑、細(xì)胞到生物體的各個(gè)層級(jí)。
研究發(fā)現(xiàn),Evo 生成的多基因系統(tǒng)成功率接近 50%,生成的 CRISPR-Cas9 蛋白也經(jīng)實(shí)驗(yàn)驗(yàn)證具有功能活性。此外,在全基因組生成方面,Evo 生成的序列在基因組組織、編碼密度和天然基因組方面顯示出高度的相似性。
Evo 不僅能夠預(yù)測(cè)基因突變的效應(yīng),還具備生成完整基因組序列的能力,在基因組設(shè)計(jì)、藥物開(kāi)發(fā)和生物工程領(lǐng)域具有廣闊的潛力。
美國(guó) Gladstone 心血管病研究所的 Christina V. Theodoris 在一篇文章中評(píng)論道:“Evo 的意義在于,首次從進(jìn)化多樣性中提取出 DNA 的‘語(yǔ)法規(guī)則’,將基因組信息的建模提升到一個(gè)新的層次?!?/p>
Evo :解碼生命指令的基因組基礎(chǔ)模型
基因組序列的演化過(guò)程展現(xiàn)了生物體對(duì)環(huán)境的適應(yīng)與選擇,隨著基因組測(cè)序技術(shù)的發(fā)展,人類逐步掌握了繪制和解析基因組多樣性的能力,從而揭示了基因在健康、疾病和生物適應(yīng)性中的關(guān)鍵角色。
DNA 作為遺傳信息的載體,通過(guò)四種堿基(A、T、G、C)序列記錄了生物體的生命指令。
Theodoris 在評(píng)論文章中指出:“DNA 盡管只有四種堿基的 ‘詞匯’,卻像一種語(yǔ)言,編碼了調(diào)控細(xì)胞各層級(jí)活動(dòng)的基礎(chǔ)信息,從DNA、RNA到蛋白質(zhì)。這些信息在指導(dǎo)細(xì)胞功能的同時(shí),代代相傳,驅(qū)動(dòng)生物體的進(jìn)化。”
Theodoris 指出,正是這種進(jìn)化多樣性中的 DNA 序列對(duì)比,賦予了大型語(yǔ)言模型學(xué)習(xí) DNA 語(yǔ)法的潛力,而這一能力是此前基于單一基因組的模型難以掌握的。
然而,建?;蚪M信息仍面臨顯著挑戰(zhàn)。當(dāng)前的機(jī)器學(xué)習(xí)模型多聚焦于特定分子(如蛋白質(zhì)、RNA),在長(zhǎng) DNA 序列的生成與預(yù)測(cè)上存在局限性,尤其是在涉及基因調(diào)控和 CRISPR 免疫等復(fù)雜系統(tǒng)的多分子、多尺度應(yīng)用中。例如,基于 Transformer 的 DNA 模型受限于較短的上下文長(zhǎng)度,多采用將核苷酸聚合成語(yǔ)言模型基本單元的方法,犧牲了單堿基分辨率。
為應(yīng)對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)借鑒自然語(yǔ)言處理模型在長(zhǎng)文本預(yù)測(cè)與生成中的成功案例,開(kāi)發(fā)了 Evo 模型。
Evo 采用了混合模型架構(gòu) StripedHyena,巧妙地將數(shù)據(jù)控制的卷積算子與多頭注意力機(jī)制相結(jié)合,克服了傳統(tǒng) Transformer 架構(gòu)在長(zhǎng)序列 DNA 處理中的計(jì)算成本和分辨率問(wèn)題,實(shí)現(xiàn)了在單堿基分辨率下對(duì)長(zhǎng)達(dá) 131072 個(gè) token 的上下文長(zhǎng)度的高效處理,極大提升了基因組分析的精確性和效率。
圖|擁有 70 億個(gè)參數(shù)的基因組基礎(chǔ)模型 Evo ,可學(xué)習(xí)從單個(gè)核苷酸到整個(gè)基因組的生物復(fù)雜性。
Evo 模型使用 OpenGenome 大型數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含超過(guò) 80000 個(gè)細(xì)菌和古菌基因組以及數(shù)百萬(wàn)個(gè)預(yù)測(cè)的噬菌體和質(zhì)粒序列,涵蓋 3000 億個(gè)核苷酸 token。訓(xùn)練分兩個(gè)階段,先使用 8192 個(gè) token 上下文長(zhǎng)度,再擴(kuò)展到 131072 個(gè) token 上下文長(zhǎng)度,參數(shù)規(guī)模達(dá) 70 億。
通過(guò)預(yù)訓(xùn)練,使得 Evo 在預(yù)測(cè)突變對(duì)蛋白質(zhì)和非編碼 RNA 功能影響時(shí),能夠全面考慮分子間的協(xié)同作用,為基因突變的精確預(yù)測(cè)提供了可能性。
DNA 編碼與自然語(yǔ)言中的單詞和句子不同,DNA 是連續(xù)的,包含了重疊的多重信息。Theodoris 在評(píng)論文章中指出,“突變可能影響這些信息中的任何一層,因此大型語(yǔ)言模型需要在單核苷酸分辨率下操作,以全面理解 DNA 信息的復(fù)雜性?!?/p>
Evo 模型在單核苷酸分辨率下操作的能力,正是應(yīng)對(duì)這種復(fù)雜性的核心。
研究人員對(duì) DNA 序列建模進(jìn)行 scaling laws 分析,比較了 Transformer++、Mamba、Hyena 和 StripedHyena 等多種架構(gòu)。結(jié)果顯示,StripedHyena 在不同計(jì)算預(yù)算下表現(xiàn)出更優(yōu)的縮放率,能穩(wěn)定訓(xùn)練,且在計(jì)算最優(yōu)前沿之外的性能也較好,這為選擇該架構(gòu)作為 Evo 的基礎(chǔ)提供了依據(jù)。
Theodoris 評(píng)論道:“Evo 采用了 StripedHyena 架構(gòu),將計(jì)算時(shí)間增加較慢的 Hyena 算子與傳統(tǒng) Transformer 算子結(jié)合,提升了生成質(zhì)量和計(jì)算效率,且其擴(kuò)展規(guī)律與自然語(yǔ)言、計(jì)算機(jī)視覺(jué)的規(guī)律類似,為未來(lái)的模型擴(kuò)展提供了計(jì)算資源分配的最佳方式。”
多模態(tài)預(yù)測(cè):跨物種基因突變預(yù)測(cè)的優(yōu)異表現(xiàn)
研究人員在多種預(yù)測(cè)和生成任務(wù)中測(cè)試了 Evo 的能力,來(lái)驗(yàn)證它解碼遺傳序列并在細(xì)胞內(nèi)多層次調(diào)控中執(zhí)行任務(wù)的能力。
實(shí)驗(yàn)數(shù)據(jù)顯示,Evo 在預(yù)測(cè)突變對(duì)蛋白質(zhì)功能影響方面展現(xiàn)出領(lǐng)先性能,在原核生物蛋白質(zhì)的 DMS 數(shù)據(jù)集中,Evo 的零樣本預(yù)測(cè)能力優(yōu)于其他核苷酸模型,接近某些專注于蛋白質(zhì)的語(yǔ)言模型。
在人類蛋白質(zhì)數(shù)據(jù)集上,由于初始數(shù)據(jù)量有限,表現(xiàn)略遜,但 Evo 在進(jìn)一步訓(xùn)練中的改進(jìn)潛力巨大,尤其在預(yù)測(cè)困惑度與適應(yīng)性關(guān)聯(lián)方面的發(fā)現(xiàn)提供了重要啟示。
圖|Evo 學(xué)習(xí)跨越蛋白質(zhì)、ncRNAs 和調(diào)控 DNA 的功能
Evo 的跨物種預(yù)測(cè)能力不僅限于蛋白質(zhì)。在非編碼RNA的功能預(yù)測(cè)中,Evo 在多個(gè) DMS 任務(wù)中的表現(xiàn)超越其他核苷酸語(yǔ)言模型。尤其在預(yù)測(cè) 5S rRNA 突變對(duì)大腸桿菌生長(zhǎng)影響時(shí),Evo 的斯皮爾曼相關(guān)系數(shù)達(dá) 0.60,表現(xiàn)出優(yōu)異的突變影響預(yù)測(cè)能力。
此外,Evo 在調(diào)控 DNA 活性預(yù)測(cè)方面,以高零樣本似然度顯著關(guān)聯(lián)啟動(dòng)子活性,結(jié)合監(jiān)督模型后接近先進(jìn)的預(yù)測(cè)方法,為非編碼區(qū)域的功能研究提供了有力支持。
生成式設(shè)計(jì):功能性 CRISPR-Cas9 與轉(zhuǎn)座子系統(tǒng)的創(chuàng)建
研究發(fā)現(xiàn),Evo 在生成式設(shè)計(jì)中的表現(xiàn)同樣亮眼。經(jīng)過(guò)微調(diào)的 Evo 模型可以根據(jù)提示生成多種類型的 CRISPR-Cas 系統(tǒng),其中篩選出的 EvoCas9-1 被實(shí)驗(yàn)驗(yàn)證具有與天然 SpCas9 類似的體外切割活性。
除了 CRISPR 系統(tǒng),Evo 生成的 sgRNA 能夠提升 SpCas9 的切割效率,同時(shí)生成的 Cas9 系統(tǒng)部分與天然 Cas9 序列同一性較低,展示了較強(qiáng)的多樣性與功能性。
圖|Evo 可生成具有可信基因組結(jié)構(gòu)的巨量級(jí)序列
在轉(zhuǎn)座子生成方面,Evo 同樣展現(xiàn)出靈活性和準(zhǔn)確性。Evo 生成的 IS200 和 IS605 元素在體外實(shí)驗(yàn)中表現(xiàn)良好,部分元件成功實(shí)現(xiàn)了切除與插入功能,顯示出在生成功能性轉(zhuǎn)座子中的潛力。例如, IS200 類似元件的成功率接近 50%,生成的 TnpA 蛋白具有功能性的發(fā)夾結(jié)構(gòu)和低同一性,顯示出在轉(zhuǎn)座子生成中的廣泛適應(yīng)性。
Theodoris 稱:“Evo 在基因工具生成中的表現(xiàn),顯示了 AI 在基因設(shè)計(jì)的廣泛應(yīng)用性。”
Theodoris 認(rèn)為,這項(xiàng)突破性的研究展現(xiàn)了如何在計(jì)算最優(yōu)的架構(gòu)下實(shí)現(xiàn)數(shù)據(jù)和模型規(guī)模的合理配置,不僅對(duì)未來(lái)更大規(guī)模的基因組建模有指導(dǎo)意義,也標(biāo)志著基因組大模型與自然語(yǔ)言處理的跨領(lǐng)域創(chuàng)新。
不足和展望
盡管 Evo 生成的基因組規(guī)模序列(約1 Mb)在編碼密度、GC含量、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、tRNA生成等方面高度接近天然基因組,但目前研究仍有瓶頸。
首先,Evo 模型在僅含 3000 億原核生物 token 的數(shù)據(jù)集預(yù)訓(xùn)練,相比海量公開(kāi)基因組數(shù)據(jù)只是一小部分,這導(dǎo)致其預(yù)測(cè)人類蛋白質(zhì)突變功能效應(yīng)的能力受限。
其次,與自然語(yǔ)言模型類似,Evo 在生成長(zhǎng)序列時(shí)難以保證連貫性和多樣性。例如,生成 CRISPR - Cas 序列時(shí)會(huì)有 cas 基因缺失或不完整問(wèn)題,生成百萬(wàn)堿基長(zhǎng)的基因組序列時(shí)難以涵蓋全套 rRNAs 等關(guān)鍵 token 基因,影響序列完整性和可用性。
研究團(tuán)隊(duì)指出,未來(lái)將通過(guò)擴(kuò)大數(shù)據(jù)集、增加模型規(guī)模、豐富訓(xùn)練上下文等手段提升 Evo 的性能。
在功能拓展方面,利用基因組語(yǔ)言模型引導(dǎo)多基因系統(tǒng)定向進(jìn)化,提高多基因環(huán)境下分子結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性,并通過(guò)優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關(guān)系或語(yǔ)義層面挖掘宏基因組信息。
在數(shù)據(jù)拓展和安全方面,計(jì)劃納入真核基因組,但因其復(fù)雜性高,需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)模基因組改造進(jìn)展,Evo 將推動(dòng)生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。
在功能拓展方面,利用基因組語(yǔ)言模型引導(dǎo)多基因系統(tǒng)定向進(jìn)化,提高多基因環(huán)境下分子結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性,并通過(guò)優(yōu)化條件和提示工程讓 Evo 成為下一代序列搜索算法核心,從關(guān)系或語(yǔ)義層面挖掘宏基因組信息。
在數(shù)據(jù)拓展和安全方面,計(jì)劃納入真核基因組,但因其復(fù)雜性高,需在模型工程、計(jì)算資源和安全校準(zhǔn)投入大量資源。結(jié)合大規(guī)?;蚪M改造進(jìn)展,Evo 將推動(dòng)生物工程和設(shè)計(jì)擴(kuò)展到全基因組規(guī)模。
Theodoris 預(yù)測(cè),未來(lái)模型可能學(xué)習(xí)人類及其他真核生物基因組,從而更有效地預(yù)測(cè)基因組中長(zhǎng)距離調(diào)控交互的影響。
他還設(shè)想,通過(guò)環(huán)境因素或細(xì)胞狀態(tài)的提示,可以進(jìn)一步引導(dǎo) Evo,使其能夠在多細(xì)胞生物中根據(jù)不同的時(shí)空條件執(zhí)行特定的細(xì)胞功能。
Evo 模型的安全與倫理考量
值得關(guān)注的是,生物技術(shù)是一把雙刃劍,像 Evo 這樣的強(qiáng)大基因組基礎(chǔ)模型在帶來(lái)科研突破的同時(shí),也引發(fā)了一些安全與倫理的討論。
例如,惡意用戶可能利用 Evo 生成抗藥性或免疫逃逸的微生物,盡管實(shí)際操作難度較大,但隨著基因工程工具的普及,有必要對(duì)模型使用權(quán)限進(jìn)行嚴(yán)格監(jiān)管,明確“濫用”行為的界定,以確保 Evo 的安全使用。
此外,Evo 的開(kāi)源性為科研帶來(lái)了透明性,但其應(yīng)用資源的分配也可能引發(fā)科技不平等。
目前,主要能有效運(yùn)用 Evo 的機(jī)構(gòu)多集中于生物技術(shù)公司和大型科研組織,這可能加劇科技紅利在特定人群中的集中。為實(shí)現(xiàn)全球科技紅利的均衡,國(guó)際社會(huì)有必要推動(dòng)資源匱乏地區(qū)的技術(shù)培訓(xùn)與支持,以彌合科技應(yīng)用的差距。
在生態(tài)層面,盡管 Evo 本身不會(huì)直接操控基因,但其生成的基因編輯系統(tǒng)可能帶來(lái)生態(tài)挑戰(zhàn)。基因編輯生物體釋放到自然環(huán)境中可能引發(fā)生態(tài)失衡。為此,研究團(tuán)隊(duì)建議,全球科學(xué)界應(yīng)制定更為嚴(yán)格的基因工程準(zhǔn)則,以確??茖W(xué)技術(shù)在尊重自然生態(tài)的前提下造福人類。
Evo 的誕生標(biāo)志著生成式基因組學(xué)進(jìn)入了一個(gè)新時(shí)代。
作為一款具備跨物種基因預(yù)測(cè)和生成能力的基礎(chǔ)模型,Evo 不僅在基因組設(shè)計(jì)、藥物開(kāi)發(fā)等領(lǐng)域展現(xiàn)了前所未有的潛力,也推動(dòng)了生命科學(xué)領(lǐng)域的創(chuàng)新。
然而,在推動(dòng)技術(shù)進(jìn)步的同時(shí),科學(xué)家們也需保持對(duì)安全、社會(huì)公平和生態(tài)保護(hù)的高度關(guān)注。通過(guò)制定完善的政策和全球協(xié)作,確保 Evo 模型的負(fù)責(zé)任應(yīng)用,生成式基因組學(xué)將在未來(lái)迎來(lái)更加廣闊的應(yīng)用前景。
作者:田小婷
編輯:學(xué)術(shù)君