一、從“像素組學(xué)”到“基因地圖”的距離有多遠(yuǎn)?
過去三年,空間轉(zhuǎn)錄組學(xué)(ST)技術(shù)讓科研人員第一次在組織切片上看到“基因的地理分布”。然而,主流商業(yè)平臺(tái)的分辨率多停留在 55–100?μm,一格里往往混雜數(shù)十個(gè)細(xì)胞,無法滿足腫瘤微環(huán)境、胚胎譜系或神經(jīng)環(huán)路等對(duì)亞細(xì)胞精度的渴望。依賴實(shí)驗(yàn)硬件向更高分辨率邁進(jìn)不僅昂貴,還受到樣本保存方式、測(cè)序深度和信息噪聲的多重限制。能否用人工智能在現(xiàn)有低分辨率數(shù)據(jù)和高清病理圖像之間“腦補(bǔ)”出單細(xì)胞級(jí)表達(dá)全景?MagNet 與 CausalGeD 便是在此愿景下誕生的兩款算法明星。
二、MagNet:多層注意力圖網(wǎng)絡(luò),專為 HD 級(jí)別而生
MagNet 由 Vanderbilt 大學(xué)與上海交大團(tuán)隊(duì)聯(lián)合提出,核心思想是用“多尺度特征 + 圖注意力 + Transformer”三重保險(xiǎn)突破信息瓶頸。算法先把每張 H&E 切片切分成 spot、bin、region 三層圖像 patch;再用 CNN 提取紋理特征,通過跨尺度 cross?attention 模塊融合;最后構(gòu)建空間鄰接圖,引入 GAT?Transformer 綜合周圍 patch 線索,預(yù)測(cè) 8?μm 超高分辨率的基因表達(dá)。作者在自有 HD?ST 數(shù)據(jù)集和公開 CRC 樣本上做了系統(tǒng)評(píng)測(cè),平均 Pearson 相關(guān)系數(shù)較 SOTA 提升 8–23%,尤其在稀疏表達(dá)基因上優(yōu)勢(shì)更明顯。值得一提的是,MagNet 還在損失函數(shù)里加入“跨尺度一致性約束”,確保預(yù)測(cè)值在 bin→spot→region 三級(jí)彼此匹配,避免過擬合局部噪聲。
三、CausalGeD:因果圖 × 擴(kuò)散模型,讓重構(gòu)更可信
另一匹配 HD 時(shí)代的方案來自北京航空航天大學(xué)與卡內(nèi)基梅隆大學(xué)聯(lián)合團(tuán)隊(duì)——CausalGeD。與 MagNet 聚焦“圖像→基因”不同,它主攻“低分辨率 ST 與單細(xì)胞 RNA 融合重構(gòu)”。算法先用因果圖判別 scRNA?seq 與 ST 之間的真實(shí)調(diào)控依賴,再將這些因果先驗(yàn)編碼進(jìn)擴(kuò)散生成模型,引導(dǎo) HD 級(jí)表達(dá)采樣。實(shí)驗(yàn)證明,在 10x Visium 小鼠腦與 Slide?seq V2 數(shù)據(jù)上,CausalGeD 將重構(gòu)基因平均相關(guān)性提升 5–32%,同時(shí)在空間可變基因檢出率、通路富集吻合度等指標(biāo)上全面超越 CellDART、Tangram 等經(jīng)典工具。該方法為“實(shí)驗(yàn)分辨率不夠高”提供了更可信的數(shù)學(xué)放大鏡。
四、數(shù)據(jù)集與 Benchmark:不僅贏,還要贏得公正
兩篇論文都堅(jiān)持“同源對(duì)比 + 多任務(wù)評(píng)測(cè)”原則。MagNet 選取自建 HD?ST、10x CRC、BreastCancerVisium 三套數(shù)據(jù),分別在 spot、32?μm、8?μm 三檔評(píng)測(cè);CausalGeD 則用 7 組公開 ST × scRNA 對(duì),涵蓋鼠腦、人結(jié)腸、人胰腺等多組織。兩者均對(duì)比 8–12 個(gè)公開算法,并放出代碼與數(shù)據(jù),方便后來者復(fù)現(xiàn)與橫向擴(kuò)展。這樣嚴(yán)謹(jǐn)?shù)?Benchmark 架構(gòu),為高分辨率預(yù)測(cè)領(lǐng)域奠定了可量化的爬梯子。
五、應(yīng)用場(chǎng)景:AI 打開的四扇窗
1. 腫瘤微環(huán)境:在 HD 級(jí)別追蹤免疫細(xì)胞與腫瘤干細(xì)胞微簇,可揭示免疫抑制“暗角”。
2. 神經(jīng)環(huán)路:單細(xì)胞尺度的基因與形態(tài)共同建圖,有望解析膠質(zhì)細(xì)胞在軸突引導(dǎo)中的精細(xì)作用。
3. 發(fā)育生物學(xué):結(jié)合系譜追蹤標(biāo)記,小鼠心臟、魚胚等模型可重構(gòu)器官再塑的分子軌跡。
4. 臨床病理:在 FFPE 切片上先用低密度 Visium 測(cè)序,再用 AI 放大到單細(xì)胞,為診斷提供高精度亞區(qū)表達(dá)圖。
六、實(shí)驗(yàn)室復(fù)現(xiàn) Tips
MagNet 與 CausalGeD 均開源于 GitHub,依賴環(huán)境集中在 PyTorch2.1 與 PyG2.4,普通 24?GB 顯存即可在中型數(shù)據(jù)集上運(yùn)行。MagNet 訓(xùn)練 30 epoch 即收斂,推薦使用 4?fold cross?validation;CausalGeD 因擴(kuò)散過程較長,可先用 LMDB 緩存加速。作者均提供示例 notebook,修改路徑即可跑通。
七、尚未解決的挑戰(zhàn)
盡管兩者成績亮眼,但 HD 預(yù)測(cè)仍面臨:① 異質(zhì)端?;蜷L鏈非編碼基因表達(dá)稀疏,AI 預(yù)測(cè)易失真;② 病理圖像染色差異可能引入域偏移;③ 推理速度與顯存需求在超大切片(≥1?cm²)上仍是瓶頸。未來,如何結(jié)合 Foundation Model 預(yù)訓(xùn)練、增量學(xué)習(xí)和顯存調(diào)度,將是突破關(guān)鍵。
八、寫在最后:讓“虛擬測(cè)序”成為可能
從 Visium Spot 到 HD Bin,只隔著一道算法的門檻。MagNet 和 CausalGeD 把病理圖像、因果推斷與生成模型巧妙拼合,為空間轉(zhuǎn)錄組插上 AI 的翅膀。當(dāng)高清 ST 仍昂貴而稀缺時(shí),它們以可復(fù)現(xiàn)的方式把“基因地圖”分辨率推至單細(xì)胞,甚至亞細(xì)胞。如果說 2020 年是空間組學(xué)的元年,那么 2025 年或許將見證“AI 虛擬測(cè)序”普及的拐點(diǎn)。下一步,等你把自己實(shí)驗(yàn)室的切片投喂進(jìn)去,看看還能挖出多少隱藏的空間密碼。