生命科學(xué)領(lǐng)域的研究中有很多方向,比如研究微觀層面的細(xì)胞生物學(xué)與分子生物學(xué),研究生物與環(huán)境關(guān)系的生態(tài)學(xué)等。而與生命活動規(guī)律、發(fā)育機制、生命本質(zhì)的研究最接近的是有關(guān)生物大分子,比如蛋白質(zhì)、核酸結(jié)構(gòu)的研究。
對蛋白質(zhì)進(jìn)行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運作變化規(guī)律,進(jìn)而全面揭示生命運行、發(fā)展的機制,激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的發(fā)展。因此蛋白質(zhì)研究、預(yù)測蛋白質(zhì)結(jié)構(gòu)等是學(xué)術(shù)與產(chǎn)業(yè)界深度參與的領(lǐng)域。在AI時代,得益于算力和算法模型的極大提升,我們也見證了蛋白質(zhì)結(jié)構(gòu)預(yù)測的歷史時刻。
每兩年舉辦一次的CASP比賽被譽為“蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的奧林匹克競賽”,在基于CASP14(2020年第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽)的蛋白質(zhì)測試集評估中,天壤TRFold獲得了國內(nèi)所有公開蛋白質(zhì)結(jié)構(gòu)預(yù)測模型中最好成績,僅次于DeepMind公司AlphaFold2 全球第一的成績。CASP競賽是含金量非常高的比賽,能在這樣的國際大賽中贏得優(yōu)異的成績,也意味著國內(nèi)計算生物學(xué)的表現(xiàn)突圍進(jìn)入了世界第一梯隊。
無論是享譽世界的AlphaFold2 模型,還是國內(nèi)新晉的TRFold模型,這些前沿的AI模型都在生命科學(xué)領(lǐng)域中賦予研究如催化劑般的效率,沿著蛋白質(zhì)研究的價值探索過程,我們一起看看這場重構(gòu)生命科學(xué)與醫(yī)藥領(lǐng)域的旅程。
打開科研思路與研究空間
在中學(xué)的時候我們已經(jīng)簡單了解過蛋白質(zhì),我們知道蛋白質(zhì)是細(xì)胞中的主要功能分子,參與行使幾乎所有的細(xì)胞功能:比如在食物的消化過程中可以發(fā)揮催化作用的各種酶;血液中的血紅蛋白運輸養(yǎng)料與代謝廢物;參與生物體內(nèi)的新陳代謝的調(diào)劑作用,如胰島素;肌球蛋白用于細(xì)胞骨架的形成,還有免疫、細(xì)胞分化、細(xì)胞凋亡等過程都有蛋白質(zhì)的身影參與。
在蛋白質(zhì)參與行使細(xì)胞功能的過程中,必須折疊成特定的結(jié)構(gòu)。但其排列的方式和位置的差異使得種類極其繁多,蛋白質(zhì)在三維空間的折疊方向有10^300種方式,結(jié)構(gòu)非常復(fù)雜。不同的折疊方式使得蛋白質(zhì)具有的活性和生物性能不定,而這個復(fù)雜的特性也就注定了研究蛋白質(zhì)的路徑困難重重。
傳統(tǒng)觀測蛋白質(zhì)結(jié)構(gòu)的方法主要有三種,包括核磁共振、X 射線、冷凍電鏡,但這些方法往往依賴昂貴的設(shè)備和大量的試錯過程,每種結(jié)構(gòu)的研究都要花數(shù)年時間。歷史上有科學(xué)家耗費幾十年時間才能得到一個清晰的蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)三維結(jié)構(gòu)的測定成了生物學(xué)領(lǐng)域非常困難的研究。至今為止沒有AI技術(shù)的協(xié)助,三維結(jié)構(gòu)被看清的量也僅僅只有17萬個,這跟蛋白質(zhì)的總量相比差距巨大。
而AI應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的最新進(jìn)展,即AlphaFold2模型、TRFold模型等,能在幾天、甚至以分鐘級預(yù)測出具有高置信度的蛋白質(zhì)結(jié)構(gòu),這在以前甚至要花費數(shù)十年時間。相對于傳統(tǒng)的測定方式來說速度不僅快而且成本低廉,非常適合高通量的蛋白質(zhì)結(jié)構(gòu)獲取。研究表示,如果照此速度,到今年年底將能完成對 1.3 億個蛋白結(jié)構(gòu)的預(yù)測,這有可能徹底改變生命科學(xué)的研究進(jìn)程。
而這也意味著這種AI主導(dǎo)下的大規(guī)模的蛋白質(zhì)結(jié)構(gòu)預(yù)測將成為一種重要工具,對于科研工作者來說,能從結(jié)構(gòu)的角度解答新的科學(xué)問題,打開科研的思路。比如科研人員可以對未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,進(jìn)行功能注釋,指導(dǎo)設(shè)計進(jìn)行功能確認(rèn)的生物學(xué)實驗。也可以通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,為遺傳操作提供目標(biāo),為設(shè)計新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù)等。天壤團隊研發(fā)的TRFold這類AI模型對于生物科學(xué)領(lǐng)域的深研來說,圍繞蛋白質(zhì)結(jié)構(gòu)功能問題,可以進(jìn)一步打開對生物計算領(lǐng)域創(chuàng)新性研究的發(fā)現(xiàn)與探索空間,促進(jìn)這個領(lǐng)域以更快的速度發(fā)展。而除了生物結(jié)構(gòu)學(xué)方面的支持以外,在醫(yī)學(xué)、藥物學(xué)的研究過程中,AI模型也具有發(fā)揮的空間。
快速解析病毒結(jié)構(gòu),折疊藥物研發(fā)時間
新藥研發(fā)是人類發(fā)展中極具風(fēng)險和復(fù)雜度、耗時最漫長的技術(shù)研究領(lǐng)域之一。據(jù)Tufts Center的統(tǒng)計報告,開發(fā)一款成功上市的新藥平均需要投入26億美元,耗時約10年。居高不下的成本,與藥物研發(fā)的巨大失敗率有關(guān)。過去十年,藥物開發(fā)項目從1期臨床到獲得FDA批準(zhǔn)上市的成功率平均為7.9%。
隨著人工智能技術(shù)的發(fā)展,部分應(yīng)用了AI的新藥研發(fā)減少了35%的成本,研發(fā)周期也從5-10年縮短為1-3年。事實上,藥物研發(fā)是一個系統(tǒng)性工程,AI技術(shù)在這個系統(tǒng)中能夠針對藥物研發(fā)過程的篩選及設(shè)計優(yōu)化等核心痛點問題,減少大量的試錯和返工時間,節(jié)省藥物研發(fā)的成本。
TRFold 模型能低成本地預(yù)測一些與疾病相關(guān)的蛋白質(zhì)結(jié)構(gòu),進(jìn)而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。比如在一些白化病、成骨不全癥等罕見病中,由于回報率低、患者多為貧困人口等原因,這些疾病無法得到醫(yī)藥公司的重視。僅在中國,這類疾病的患者就達(dá)2000萬以上。盡管這類被忽視疾病占了全球總疾病里的12%,但只有僅僅1.1%的新研發(fā)藥物,適用于被忽視的疾病。如今,AlphaFold2、TRFold 等AI模型為這類疾病的藥物開發(fā)帶來了希望,通過快速準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu),為新的藥物分子設(shè)計提供合理的靶分子及結(jié)構(gòu),使幾乎只集中在貧困人口中的疾病的藥物研發(fā)成為可能。
在新藥的臨床試驗中,TRFold 模型也能作為“毒性預(yù)警系統(tǒng)”發(fā)揮效用。在測試藥物毒性的過程中,動物模型非常有價值,但我們在進(jìn)入高風(fēng)險的人體臨床試驗中,需要降低風(fēng)險,否則意外的毒副作用,會讓新藥退出臨床研究,前功盡棄。一般的解決方案是開發(fā)高度模仿的人類生物系統(tǒng),但現(xiàn)在來說仍難以實現(xiàn)。TRFold這類AI模型讓我們對人類蛋白有了3D模型,這也許可以幫助我們建立更好的人類生物模擬系統(tǒng)。
當(dāng)然在一些細(xì)菌以及病毒相關(guān)的蛋白質(zhì)結(jié)構(gòu)研究中,TRFold模型也會拓展對蛋白質(zhì)類型的功能分析以及下游應(yīng)用的范圍,比如一些病毒類感染的疾病研究,抗生素、靶向藥的開發(fā),研發(fā)新效率的酶等為藥研與健康作出貢獻(xiàn)。
但是,還有很多研究工作對于蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度要求極高。比如血紅蛋白中鐵離子的位移,是在零點幾埃的尺度上進(jìn)行討論的。對于這類結(jié)構(gòu)細(xì)節(jié)的精細(xì)分析,預(yù)測結(jié)構(gòu)無法作為討論的基礎(chǔ),因為其中一絲一毫的不確定性都可能導(dǎo)致完全不同的結(jié)論。AI模型的算法普適性和準(zhǔn)確度仍有提高空間,對蛋白質(zhì)與其配體的復(fù)合結(jié)構(gòu)、蛋白質(zhì)的動態(tài)分析等領(lǐng)域算法需要完善。
AI預(yù)測模型駛?cè)肷畔⑸钐?/p>
用AI模型預(yù)測單蛋白的結(jié)構(gòu)模擬只是開始,結(jié)構(gòu)的預(yù)測只是指明了研究的方向,后續(xù)的進(jìn)展還得需要試驗與頭腦的風(fēng)暴。還有一些無法被AI模型預(yù)測與發(fā)現(xiàn)的結(jié)構(gòu),其研究仍然是謎一般的存在,這也給科研人員、企業(yè)與研究機構(gòu)留下了很大的空間。
國內(nèi)外不同的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型在廣闊的生命科學(xué)與生物科技領(lǐng)域會各自占領(lǐng)擅長的領(lǐng)域,發(fā)揮效用。結(jié)構(gòu)生物學(xué)家,中國科學(xué)院院士施一公曾表示對AI預(yù)測模型的看法,“人類蛋白質(zhì)組里能夠被預(yù)測的蛋白質(zhì)三維結(jié)構(gòu),已經(jīng)基本被 AlphaFold 預(yù)測了。總體而言,預(yù)測結(jié)果可信、也比較準(zhǔn)確。這是人類在認(rèn)識自然界的科學(xué)探索征程中一個非常了不起的歷史性成就,也是人類在 21 世紀(jì)取得的最重要的科學(xué)突破之一”。
毋庸置疑的是AlphaFold2是蛋白質(zhì)結(jié)構(gòu)預(yù)測方向的重大突破,這類AI模型預(yù)測的高質(zhì)量蛋白質(zhì)結(jié)構(gòu),會促進(jìn)高效篩選化合物的新技術(shù)發(fā)展,以及藥物研發(fā)的全生命流程等。
或許有人會有疑惑,AlphaFold 2模型性能足夠強大了,為何我們自己還要花費精力、腦力去打造算法?事實上雖然Deepmind開源了AlphaFold 2模型,但開源的是推理代碼,并沒有訓(xùn)練代碼,所以在github下載的代碼實際上只能運行AF2的模型算法,直接對蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測。如果想要圍繞蛋白質(zhì)結(jié)構(gòu)功能問題,或者是能夠達(dá)到實際落地應(yīng)用準(zhǔn)確度要求的AI算法,沒有訓(xùn)練模型經(jīng)驗,或者沒有具備能夠訓(xùn)練出AlphaFold 2模型結(jié)果的能力是無法把該技術(shù)推進(jìn)解決更深層次問題的。
與芯片一樣,對于做蛋白質(zhì)結(jié)構(gòu)預(yù)測來說,沒有核心的技術(shù)能力,對于深層次的生命科學(xué)領(lǐng)域的探索就會受到限制。天壤團隊打造的TRFold這套算法平臺完全是國產(chǎn)自研,從底層代碼慢慢搭建起來的,并且在國際賽事中取得了僅次于AlphaFold 2模型的好成績。
在兩年半的研發(fā)時間里,TRFold經(jīng)歷了幾十個版本的迭代,當(dāng)前的訓(xùn)練架構(gòu)是從今年初就開始設(shè)計,處理數(shù)據(jù)、訓(xùn)練數(shù)據(jù)并不停迭代優(yōu)化,耗費10個月時間。其最新版本的預(yù)測精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸。區(qū)別于AlphaFold2模型,TRFold有自己的思考與設(shè)計。TRFold采取權(quán)重共享的方式節(jié)約算力,在訓(xùn)練資源與算力有限的情況下,天壤團隊從數(shù)據(jù)和網(wǎng)絡(luò)設(shè)計上做出改進(jìn),僅采用少量的真實數(shù)據(jù)訓(xùn)練,使模型在訓(xùn)練過程中能夠獲得對真實共進(jìn)化信息更好地識別能力,從而取得對氨基酸殘基距離和坐標(biāo)更準(zhǔn)確的預(yù)測結(jié)果。
其算力消耗約AlphaFold2的1/32,預(yù)測大多數(shù)蛋白質(zhì)鏈所需時間不超過16秒,相較于AlphaFold2預(yù)測約400個氨基酸的蛋白鏈所需70多秒的時間,具有明顯的小樣本數(shù)據(jù)訓(xùn)練生成優(yōu)勢。在后續(xù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的過程中,計算量指數(shù)級別增長的情形下,對蛋白質(zhì)的結(jié)構(gòu)預(yù)測的研究具有深遠(yuǎn)意義,也為后續(xù)的研究比如結(jié)構(gòu)生物科學(xué)、藥物研究等領(lǐng)域打開了國產(chǎn)深研的大門,我們不會因為技術(shù)的限制而仰人鼻息。
天壤團隊的TRFold模型也有自己的發(fā)展方向:圍繞蛋白質(zhì)結(jié)構(gòu)功能問題并且能夠達(dá)到實際落地應(yīng)用準(zhǔn)確度要求,進(jìn)而推進(jìn)解決更深層次的問題。比如研究蛋白質(zhì)間相互作用的問題,利用目前的全蛋白質(zhì)組協(xié)同進(jìn)化分析,建立起蛋白質(zhì)與蛋白質(zhì)之間的相互作用的精準(zhǔn)鏈路。通過研究蛋白質(zhì)之間的相互作用,幫助科研人員構(gòu)建大規(guī)模的相互作用網(wǎng)絡(luò)圖、尋找藥物結(jié)合靶點的新思路以及精準(zhǔn)疾病治療的新方法。在新藥研發(fā)、抗體模擬等疫苗研發(fā)中,提高蛋白質(zhì)設(shè)計的精度和成功率,為各類疫苗比如新冠疫苗等的蛋白設(shè)計的驗證助益等。
縱觀科學(xué)史,每次科研領(lǐng)域取得重大的進(jìn)步,都離不開當(dāng)時技術(shù)的支持。無論是在蛋白質(zhì)提純的困難年代,還是電眼觀察蛋白質(zhì)的冷電鏡技術(shù)時代,科學(xué)家研究的工具都依賴于當(dāng)時的最高科技水平。隨著AI技術(shù)的不斷突破,走在前沿生命科技領(lǐng)域的深水區(qū)與無人區(qū)的領(lǐng)路者DeepMind、天壤等公司,不斷用AI技術(shù)賦能,助力研究人員的科研工作,讓科研人員告別依賴人類先驗知識去做蛋白質(zhì)結(jié)構(gòu)預(yù)測的方式。
可預(yù)測的未來,站在AI巨人的肩膀上,這個領(lǐng)域的發(fā)展一定會有質(zhì)的飛躍。而蛋白質(zhì)這個能夠影響生命進(jìn)程的大分子,AI算法模型為我們打開了生命科學(xué)領(lǐng)域的新世界,這些海量的蛋白質(zhì)結(jié)構(gòu)會被技術(shù)釋放,背后的解讀與分析蘊含著生命信息的“富礦”,等待我們?nèi)ヌ剿髋c挖掘。