投稿作者:許涵文(華盛頓大學二年級在讀博士生)
近年來,數(shù)字病理學的蓬勃發(fā)展成為了精準醫(yī)學加速突破的重要組成部分。在癌癥護理過程中,利用全切片成像技術將腫瘤組織樣本轉換為高分辨率的數(shù)字圖像,已經成為常規(guī)技術。高達十億像素級別的病理學圖片包含多樣的腫瘤微環(huán)境信息,為癌癥分型診斷,生存率分析以及精準免疫治療提供了前所未有的契機。
近期,生成式人工智能革命為準確感知、分析病理學圖片中的海量信息提供了強有力的解決方案。與此同時,多模態(tài)生成式人工智能技術的突破更將助力從時空多尺度理解數(shù)字病理學圖片并與其他生物醫(yī)學模態(tài)相融合,從而更好刻畫患者疾病演變、發(fā)展過程,協(xié)助醫(yī)生進行臨床診斷和治療。
然而,由于數(shù)字病例學圖片的大規(guī)模、高像素、特征復雜等特點,從計算角度高效處理和理解其中的復雜模式十分具有挑戰(zhàn)性。每張全切片數(shù)字化轉型之后將包含數(shù)十億像素,其面積達到自然圖像的十幾萬倍,應用現(xiàn)有的計算機視覺模型難度較大。傳統(tǒng)的視覺模型,如 Vision Transformer,其計算復雜度隨著輸入圖片的大小的增加快速上升。同時,臨床醫(yī)學數(shù)據具有跨尺度、多模態(tài)和高噪聲等特點,而現(xiàn)有的病理學模型大多基于標準公開數(shù)據集,依然同現(xiàn)實世界的應用具有不小的距離。
為此,來自微軟研究院、美國 Providence 的醫(yī)療網絡和華盛頓大學的研究人員,共同提出了首個全切片尺度的數(shù)字病理學模型 GigaPath。
據介紹,GigaPath模型采取兩階段的級聯(lián)結構,以及微軟研究院近期開發(fā)的 LongNet 架構,高效解決了十億像素級別圖像的處理和理解問題。研究人員對 GigaPath 在真實世界的數(shù)據上進行了大規(guī)模預訓練,從 Providence 旗下 28 家美國醫(yī)院的 3 萬病人收集到 17 萬張全切片數(shù)字病理學圖片,共計 13 億張病理學圖塊。
實驗結果表明,GigaPath 在 26 個任務——包含 9 個癌癥分型和 17 項病理組學任務——中的 25 項任務取得領先效果,在 18 項任務中顯著高于現(xiàn)有方法。
研究人員表示,該研究展示了全切片尺度層面的建模和大規(guī)模真實世界數(shù)據的預訓練極其重要,同時,GigaPath 也將為更加先進的癌癥護理和臨床發(fā)現(xiàn)提供全新可能。值得一提的是,GigaPath 的模型和代碼已經開源。
方法
GigaPath 采用兩階段課程學習,包括使用 DINOv2 的圖塊級預訓練和使用帶有 LongNet 的掩碼自動編碼器的全切片級預訓練,如下圖。
圖|GigaPath 模型示意圖
DINOv2 是一種標準的自監(jiān)督方法,在訓練教師和學生 Vision Transformer 時結合了對比損失和掩碼重建損失。然而,由于自注意力自身帶來的計算挑戰(zhàn),其應用僅限于小圖像,例如 256 × 256 圖塊。對于全切片級建模,研究團隊將擴張注意力(Dilated Attention)從 LongNet 應用于數(shù)字病理學,如下圖。
圖|LongNet 模型示意圖
為了處理整張全切片的長圖像圖塊序列,他們引入了一系列遞增的尺寸,用于將圖塊序列細分為給定尺寸的片段。對于較大的片段,LongNet 引入稀疏注意力,稀疏性與片段長度成正比,從而抵消平方增長。最大的尺寸片段將覆蓋整個全切片。這能夠以系統(tǒng)的方式捕獲遠程依賴關系,同時保持計算的易處理性(上下文長度呈線性)。
主要實驗結果
在癌癥分型診斷方面,任務目標定位于根據病理切片對細粒度亞型進行分類。例如,對于卵巢癌,模型需要區(qū)分六種亞型:透明細胞卵巢癌、子宮內膜樣卵巢癌、高級別漿液性卵巢癌、低級別漿液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。**GigaPath 在所有九項癌癥分型任務中均獲得領先效果,在其中六項癌癥類別分型中準確率提升具有顯著性。**對于六種癌癥(乳腺癌、腎癌、肝癌、腦癌、卵巢癌、中樞神經系統(tǒng)癌),GigaPath 的 AUROC 達到 90% 或更高。這對于癌癥診斷和預后等精準健康領域的下游應用來說是個好的開始。
在病理組學任務中,任務目標定位于僅根據全切片圖像預測腫瘤是否表現(xiàn)出特定的臨床相關基因突變。該預測任務有助于揭示組織形態(tài)和遺傳途徑之間難以被人類察覺的豐富聯(lián)系。除了一些已知特定癌癥類型和基因突變對之外,全切片圖像中存在多少基因突變信號仍是一個尚無答案的問題。此外,在一些實驗中,研究人員考慮了泛癌場景,即在所有癌癥類型和非常多樣化的腫瘤形態(tài)中識別基因突變的通用信號。在如此具有挑戰(zhàn)性的場景中,GigaPath 在 18 項任務中的 17 項中再次達到了領先性能,在 18 項任務中的 12 項中顯著優(yōu)于第二名。Gigapath 可以在整個全切片水平上提取遺傳相關的泛癌和亞型特異性形態(tài)特征,為真實世界場景下的復雜未來研究方向打開了大門。
此外,研究者通過引入病理報告進一步證明了 GigaPath 在多模態(tài)視覺語言任務上的潛力。此前,關于病理視覺語言預訓練的工作往往集中在圖塊級別的小圖像上。相反,GigaPath 探索全切片級別的視覺語言預訓練。通過繼續(xù)對病理學報告對進行預訓練,利用報告語義來對齊病理學圖像的隱空間表征。
這比傳統(tǒng)的視覺語言預訓練更具挑戰(zhàn)性,在不利用任何單個圖像圖塊和文本片段之間的細粒度對齊信息的情況下,GigaPath 在標準視覺語言任務中顯著優(yōu)于三種最先進的病理學視覺語言模型。
總結
通過豐富全面的實驗,研究人員證明了 GigaPath 的相關研究工作是全切片層面預訓練和多模態(tài)視覺語言建模層面的良好實踐。值得一提的是,盡管 GigaPath 在多任務上取得了領先效果,在某些特定任務層面依然具有較大的進步空間。同時,盡管研究人員探索了視覺語言多模態(tài)任務,但在朝向搭建病理學層面的多模態(tài)對話助手的道路上,依然有很多具體問題需要探索。
GigaPath 是橫跨微軟研究院、Providence 醫(yī)療系統(tǒng)和華盛頓大學保羅艾倫計算機學院的合作項目。其中,來自微軟研究院和華盛頓大學的二年級博士生許涵文和來自微軟研究院的首席研究員 Naoto Usuyama 為論文共同第一作者。來自微軟研究院 Health Futures 團隊的 General Manager Dr.Hoifung Poon(潘海峰),華盛頓大學的王晟教授,以及 Providence 的 Dr.Carlo Bifulco 為論文的共同通訊作者。
許涵文:華盛頓大學二年級在讀博士生。研究方向為 AI 和醫(yī)學交叉??蒲谐晒l(fā)表于Nature、Nature Communications、Nature Machine Intelligence 和 AAAI 等。曾擔任 Nature Communications、Nature Computational Science 等子刊審稿人。
王晟:華盛頓大學計算機系助理教授,研究方向專注于AI和醫(yī)學交叉??蒲谐晒l(fā)表于Nature、Science、Nature Biotechnology、Nature Machine Intelligence 和 The Lancet Oncology,研究轉化成果被 Mayo Clinic、Chan Zuckerberg Biohub、UW Medicine、Providence 等多個醫(yī)療機構使用。
潘海峰:微軟研究院 Health Futures General Manager,研究方向為生成式 AI 基礎研究以及精準醫(yī)療應用。在多個 AI 頂會獲最佳論文獎,在 HuggingFace 上發(fā)布的開源生物醫(yī)學大模型總下載量達數(shù)千萬次,部分研究成果開始在合作的醫(yī)療機構和制藥公司中轉化為應用。