北京大學(xué)團隊提出細胞內(nèi)外信息的解耦表示方法
多細胞生物體可以被視作由相互連接的細胞組成的復(fù)雜空間網(wǎng)絡(luò)。每個細胞的位置與其內(nèi)在特性同樣重要,它們共同決定了組織的功能發(fā)揮及疾病狀態(tài)下的功能障礙。空間組學(xué)技術(shù)能夠以單細胞精度全面描繪細胞在組織中的原位排列,因此成為解析組織中細胞協(xié)作與功能的重要工具。
空間組學(xué)不僅提供了細胞內(nèi)的基因表達信息,還能揭示細胞所處的空間環(huán)境。然而,如何解析細胞內(nèi)外信息的關(guān)聯(lián),仍是理解空間組學(xué)的核心難題?,F(xiàn)有計算模型通常將細胞內(nèi)部信息與空間環(huán)境信息混合建模,這不僅會引入模糊性,也阻礙了對細胞內(nèi)外關(guān)聯(lián)機制的深入研究。此外,隨著空間組學(xué)技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模持續(xù)擴大,現(xiàn)有方法在處理大規(guī)模細胞通量時存在瓶頸。
針對上述挑戰(zhàn),2025年8月27日,北京大學(xué)/昌平實驗室高歌課題組于Nature Communication發(fā)表題為“Disentangled cellular embeddings for large-scale heterogeneous spatial omics data”的研究論文,提出了空間組學(xué)建模的解耦建模的新方法DECIPHER。相較以往方法,DECIPHER具有下列兩點優(yōu)勢:可擴展至千萬細胞規(guī)模的空間圖譜;能解析細胞內(nèi)在的基因程序與細胞外在空間環(huán)境間的關(guān)聯(lián)。
論文截圖
組學(xué)數(shù)據(jù)的準確表示(representation)是各種下游任務(wù)的重要基石。高歌課題組此前已開發(fā)多種對單細胞組學(xué)數(shù)據(jù)的表示學(xué)習(xí)方法,包括針對單細胞轉(zhuǎn)錄組數(shù)據(jù)表示方法Cell BLAST(Nature communication,2020),以及單細胞多組學(xué)數(shù)據(jù)表示方法GLUE(Nature Biotechnology,2022)和CLUE (NeurIPS Oral,2023)。
而針對新興的空間組學(xué)數(shù)據(jù),DECIPHER采用了雙編碼器結(jié)構(gòu):組學(xué)編碼器用于建模細胞自身的身份特征,空間編碼器用于建模細胞所處的空間環(huán)境。其中,空間編碼器引入了Transformer架構(gòu),使其能夠高效處理規(guī)模不斷增長的空間數(shù)據(jù)。整個模型通過多尺度對比學(xué)習(xí)進行自監(jiān)督訓(xùn)練(見圖1),實現(xiàn)了對空間組學(xué)數(shù)據(jù)的精準表示。
圖1 DECIPHER模型的結(jié)構(gòu)示意圖
小鼠大腦3D空間圖譜包含超過300萬細胞和200張空間切片(圖2a),遠超現(xiàn)有空間組學(xué)計算方法的處理能力。相比之下,DECIPHER僅需數(shù)小時即可完成建模。DECIPHER的結(jié)果不僅能夠準確重建細胞類型,還能精確再現(xiàn)大腦中的空間區(qū)域(圖2b),同時清晰反映不同細胞類型在各大腦區(qū)域的空間特異性分布(圖2c)。
圖2 DECIPHER適用于圖譜規(guī)模的空間數(shù)據(jù)
為了進一步從DECIPHER的解耦表示中揭示細胞內(nèi)外的關(guān)聯(lián),本研究構(gòu)建了一個可解釋的機器學(xué)習(xí)模型,用于挖掘?qū)毎臻g位置具有關(guān)鍵作用的信號分子,例如調(diào)控細胞通訊的配體-受體對。以B細胞為例,其成熟過程需要遷入淋巴結(jié)的生發(fā)中心。我們希望識別出在這一過程中的關(guān)鍵調(diào)控分子?;贒ECIPHER表示,識別出CXCR4–CXCL12和CXCR5–CXCL13為與B細胞空間定位最關(guān)鍵的配體-受體對。而實驗研究也已充分證實,這兩對配體-受體對B細胞定位到生發(fā)中心的亮區(qū)(light zone)和暗區(qū)(dark zone)至關(guān)重要。
圖3 基于DECIPHER解耦表示揭示細胞內(nèi)外信息的關(guān)聯(lián)
DECIPHER為從空間組學(xué)數(shù)據(jù)中探索細胞基因表達程序與空間環(huán)境的關(guān)聯(lián)提供了全新視角,對深入理解細胞空間功能調(diào)控具有重要意義。該模型的全部代碼已開源發(fā)布(https://github.com/gao-lab/DECIPHER),用戶可通過PyPI平臺直接安裝使用。
高歌課題組北京大學(xué)生命科學(xué)學(xué)院博士生夏辰睿為該論文第一作者,博雅博士后曹智杰博士(已出站)為該論文共同通訊暨共同第一作者。該研究得到了國家重點研發(fā)計劃、基因功能與調(diào)控國家重點實驗室、北京未來基因診斷高精尖創(chuàng)新中心和昌平實驗室的資助。計算分析工作于昌平實驗室高性能計算平臺、北京大學(xué)太平洋高性能計算平臺與北京大學(xué)高性能計算校級公共平臺完成。
來源:北京大學(xué)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。