2021年8月10日,深圳華大生命科學研究院精準健康研究所智能算法團隊在知名學術(shù)雜志《遺傳學前沿》(Frontiers in Genetics)在線發(fā)表了題為“deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors”的研究論文,文章提出了一種新的基于深度學習模型進行單細胞RNA測序數(shù)據(jù)(scRNA-seq)批次效應校正的方法deepMNN。

華大研究院開發(fā)基于深度學習的單細胞測序數(shù)據(jù)分析新方法deepMNN-肽度TIMEDOO

Frontier in Genetics 官網(wǎng)截圖

高通量單細胞RNA測序技術(shù)的快速發(fā)展產(chǎn)生了海量的scRNA-seq數(shù)據(jù),充分利用并整合不同數(shù)據(jù)集進行大規(guī)模單細胞轉(zhuǎn)錄組數(shù)據(jù)挖掘可以為細胞異質(zhì)性及其進化動力學提供更多新的見解。然而不同scRNA-seq數(shù)據(jù)可能產(chǎn)生于不同時間和測序平臺,這些數(shù)據(jù)之間不可避免的存在技術(shù)或無生物學意義差異的批次效應。雖然目前已經(jīng)提出了許多scRNA-seq數(shù)據(jù)批次效應校正算法,但大多數(shù)方法需要消耗大量內(nèi)存和時間,且這種需求隨著不斷增加的scRNA-seq數(shù)據(jù)會進一步加劇。

研究團隊基于深度學習模型設(shè)計并開發(fā)了deepMNN方法用于校正scRNA-seq數(shù)據(jù)批次效應。deepMNN通過主成分分析降維并在其子空間中計算批次間的互近鄰對(MNN pairs),然后構(gòu)建一個基于深度殘差網(wǎng)絡(luò)的深度學習模型消除批次效應。deepMNN通過自己特有的損失函數(shù)指導其進行模型學習從而消除scRNA-seq數(shù)據(jù)間的批次效應。

華大研究院開發(fā)基于深度學習的單細胞測序數(shù)據(jù)分析新方法deepMNN-肽度TIMEDOO

deepMNN框架。(A)deepMNN工作流示意圖,(B)批次矯正網(wǎng)絡(luò)中的殘差模塊。

為了評估deepMNN的批次效應校正效能,文章使用4種不同批次場景的scRNA-seq數(shù)據(jù)集,包括(A)兩個批次且細胞類型相同,(B)兩個批次但細胞類型不同(即batch-specific數(shù)據(jù)),(C)多個批次數(shù)據(jù)集,(D)大規(guī)模數(shù)據(jù)集。

華大研究院開發(fā)基于深度學習的單細胞測序數(shù)據(jù)分析新方法deepMNN-肽度TIMEDOO

文章使用的4種不同批次的scRNA-seq數(shù)據(jù)

文章在4種不同場景下比較了deepMNN和常用的批次效應校正算法(Harmony, Scanorama和Seurat V4)以及已發(fā)表的基于深度學習的批次效應校正方法(MMD-ResNet和scGen)。實驗結(jié)果表明,與其他校正方法相比,deepMNN不僅在定性指標(UMAP可視化結(jié)果)和定量指標(batch and cell entropy, ARI F1 score 和 ASW F1 score)方面達到較好或可比的性能,且處理大數(shù)據(jù)時在運算時間方面有較大優(yōu)勢。

華大研究院開發(fā)基于深度學習的單細胞測序數(shù)據(jù)分析新方法deepMNN-肽度TIMEDOO

在“兩個批次且細胞類型相同”的場景下,deepMNN與其他常用批次效應校正算法的定性和定量比較結(jié)果

值得注意的是,對于多批次數(shù)據(jù),目前常見的批次效應校正算法如Scanorama 和 Seurat V4一次只合并兩個數(shù)據(jù)集,并通過迭代來完成多個數(shù)據(jù)集的集成。而deepMNN 是目前已知第一個可以一步整合多個批次 scRNA-seq 數(shù)據(jù)的方法。對于大規(guī)模數(shù)據(jù)集HCA(總計達528014個細胞)中進行批次效應校正,由于Seurat V4 和scGen超出了64G內(nèi)存限制使其不可運行,deepMNN使用17分鐘完成了該大規(guī)模數(shù)據(jù)集的批次效應校正,而Harmony和Scanorama則分別需要大約35分鐘和77分鐘。

華大研究院開發(fā)基于深度學習的單細胞測序數(shù)據(jù)分析新方法deepMNN-肽度TIMEDOO

在大規(guī)模數(shù)據(jù)集HCA場景下,deepMNN與其他常用批次效應校正算法的定性比較

總之,文章基于深度學習模型提出新的單細胞RNA測序數(shù)據(jù)批次效應校正方法deepMNN,準確性優(yōu)于現(xiàn)有常用方法,特別是在大規(guī)模數(shù)據(jù)集的情況下,deepMNN算法的時間復雜度和空間復雜度均表現(xiàn)優(yōu)異,同時deepMNN一步即可整合多批次數(shù)據(jù)集,無需多次迭代。

深圳華大生命科學研究院白勇博士、金鑫研究員為論文共同通訊作者。