近日,華大智造研發(fā)團(tuán)隊(duì)在Nature子刊Nature Machine Intelligence(IF=25.898)上在線發(fā)表了題為Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale的研究成果。研究人員開發(fā)了一種基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法工具——Concerto (協(xié)奏曲)?!皡f(xié)奏曲”的命名, 既包含了“對(duì)比學(xué)習(xí)建模細(xì)胞表征”的英文首字母,又暗含了組織器官中不同類型、不同狀態(tài)的細(xì)胞協(xié)同發(fā)揮作用之意。該算法通過自監(jiān)督訓(xùn)練的方式,可快速對(duì)千萬級(jí)無標(biāo)注的單細(xì)胞多組學(xué)數(shù)據(jù)進(jìn)行建模,得到的細(xì)胞表征(cell embedding)可以用于自動(dòng)注釋、多模態(tài)整合、聚類、跨批次整合、參考映射注釋等下游應(yīng)用。Concerto在各項(xiàng)任務(wù)中都展現(xiàn)了優(yōu)異的性能,進(jìn)一步豐富了單細(xì)胞大數(shù)據(jù)領(lǐng)域的算法工具。
Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO研究背景

單細(xì)胞多組學(xué)工具在解析細(xì)胞多樣性的研究中發(fā)揮著至關(guān)重要的作用,可繪制單細(xì)胞水平的多組學(xué)圖譜,進(jìn)而從多模態(tài)角度揭示細(xì)胞功能或狀態(tài)的異質(zhì)性。百萬甚至千萬級(jí)別的單細(xì)胞多組學(xué)大數(shù)據(jù)需要通過智能高效的計(jì)算工具助力科學(xué)發(fā)現(xiàn),定義細(xì)胞類型和狀態(tài)。同時(shí),已發(fā)表的大量未經(jīng)人工注釋或者注釋顆粒度不夠精細(xì)的數(shù)據(jù)集本身也是寶貴的資源,若加以有效利用,可以幫助快速解讀新產(chǎn)生的數(shù)據(jù)集。

目前主流的單細(xì)胞數(shù)據(jù)分析工具大多依賴于統(tǒng)計(jì)學(xué)特征選擇(如高可變基因)和線性降維方法(如主成分分析PCA[1])來提取關(guān)鍵信息,但該預(yù)處理方法可能會(huì)造成信息量丟失。此外,單細(xì)胞數(shù)據(jù)集不可避免地存在不同程度的批次效應(yīng),在數(shù)據(jù)整合的過程中需要在保留每個(gè)樣本包含的細(xì)微生物學(xué)狀態(tài)差異前提下完成批次效應(yīng)的適度去除。隨著單細(xì)胞大數(shù)據(jù)時(shí)代的到來,亟需可快速構(gòu)建千萬級(jí)別單細(xì)胞多模態(tài)圖譜并可實(shí)現(xiàn)映射注釋的算法。

華大智造自主開發(fā)的Concerto算法,采用人工智能領(lǐng)域新興的對(duì)比自監(jiān)督學(xué)習(xí)框架并進(jìn)行優(yōu)化適配,以應(yīng)用在海量單細(xì)胞組學(xué)數(shù)據(jù)的建模中。何謂對(duì)比學(xué)習(xí)?簡而言之,就是構(gòu)造一個(gè)直觀簡潔的學(xué)習(xí)任務(wù),讓機(jī)器去對(duì)比和區(qū)分哪些樣本與哪些樣本相似,哪些樣本與哪些樣本不相似,從而學(xué)習(xí)到每個(gè)樣本蘊(yùn)含的高階特征。這就好比是試圖理解世界的嬰兒,即使還未建立起認(rèn)知世界的知識(shí)框架,也可能會(huì)意識(shí)到,相比于“史努比”,“加菲貓”和“黑貓警長”長得更像。嬰兒通過比較不同物體之間的異同,或許可以學(xué)習(xí)到這些物體最重要的特征。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

對(duì)比學(xué)習(xí)示意圖

相比于傳統(tǒng)的監(jiān)督學(xué)習(xí),在自監(jiān)督學(xué)習(xí)中,機(jī)器學(xué)習(xí)的標(biāo)簽來自于樣本自身。在真實(shí)世界中,有標(biāo)簽或者說有高質(zhì)量標(biāo)簽的數(shù)據(jù)集是稀缺的,通過對(duì)比學(xué)習(xí)這樣的自監(jiān)督訓(xùn)練框架,可以很好地利用大量真實(shí)世界未注釋的數(shù)據(jù)集。在機(jī)器視覺領(lǐng)域,Google和Meta近年來相繼提出多種對(duì)比自監(jiān)督學(xué)習(xí)算法,包括SimCLR[2]、 MoCo[3]等。在ImageNet分類基準(zhǔn)測試中,最新的自監(jiān)督算法甚至能優(yōu)于有監(jiān)督的基線方法。正如圖靈獎(jiǎng)得主Yann LeCun所預(yù)測,自監(jiān)督學(xué)習(xí)是AI的未來,它就像人一樣自覺觀察數(shù)據(jù),可能使AI產(chǎn)生類人的推理能力。

在生物學(xué)領(lǐng)域,通過新興的單細(xì)胞、時(shí)空組學(xué)工具獲得的全新數(shù)據(jù)集,大大拓展了人類對(duì)于復(fù)雜生物系統(tǒng)的認(rèn)知,這些數(shù)據(jù)還有大量未被人類標(biāo)記或僅僅是依賴于已有知識(shí)進(jìn)行注釋。借鑒機(jī)器學(xué)習(xí)領(lǐng)域中不依賴標(biāo)簽數(shù)據(jù)的智能建模思想,以無偏的方式去利用好這些全新的單細(xì)胞數(shù)據(jù),可以幫助科學(xué)家發(fā)現(xiàn)新的細(xì)胞類型、細(xì)胞狀態(tài),進(jìn)而重新定義細(xì)胞類型。華大智造團(tuán)隊(duì)通過構(gòu)造對(duì)比學(xué)習(xí)任務(wù),讓每個(gè)細(xì)胞自己跟自己“學(xué)習(xí)”,類似的細(xì)胞離得更近,不類似的細(xì)胞離得更遠(yuǎn),從而實(shí)現(xiàn)對(duì)千萬級(jí)別單細(xì)胞數(shù)據(jù)的快速建模。基于華大智造自主研發(fā)的便攜、易用、經(jīng)濟(jì)友好的DNBelab C4單細(xì)胞建庫平臺(tái),結(jié)合GPU的使用,利用Concerto構(gòu)建千萬級(jí)別的單細(xì)胞參考集僅需1.5h,快速注釋5萬個(gè)細(xì)胞僅需8s。同時(shí),該模型可以整合不同模態(tài)、不同批次、不同測序平臺(tái)和不同單細(xì)胞建庫的方法。值得一提的是,Concerto的對(duì)比學(xué)習(xí)架構(gòu)可以有效支持將一個(gè)細(xì)胞的所有基因作為輸入建模,避免了直接降維過程中的信息丟失,同時(shí)該優(yōu)勢對(duì)于跨數(shù)據(jù)集的遷移注釋至關(guān)重要,可以更好地?cái)U(kuò)展跨數(shù)據(jù)集間可利用的交集基因信息。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

華大智造DNBelab C4

Concerto模型架構(gòu)

具體而言,研究團(tuán)隊(duì)對(duì)每個(gè)細(xì)胞通過非對(duì)稱的“雙塔”蒸餾模型框架,并借鑒自然語言處理技術(shù)中的隱空間Dropout策略[4],得到一個(gè)細(xì)胞的兩個(gè)不同表征(cell embedding)并使其互為正樣本,而與其他細(xì)胞則互為負(fù)樣本。通過對(duì)比學(xué)習(xí)在超球面空間[5]上將正樣本拉近,負(fù)樣本推開,從而學(xué)習(xí)到高質(zhì)量的細(xì)胞表征(圖1a)。經(jīng)過Concerto訓(xùn)練好的細(xì)胞表征,可以在zero-shot或者few-shot的場景下應(yīng)用于多種下游分析任務(wù)(圖1c)。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

圖1 Concerto模型的結(jié)構(gòu)示意圖

Concerto整合單細(xì)胞多模態(tài)數(shù)據(jù)

在RNA和蛋白同時(shí)測序的人類外周血單核細(xì)胞數(shù)據(jù)集中(PBMC160K),作者利用Concerto進(jìn)行多模態(tài)數(shù)據(jù)整合,作者發(fā)現(xiàn):細(xì)胞的不同模態(tài)信息反應(yīng)了之前科學(xué)家定義的不同細(xì)胞分類的顆粒度和類型。例如:CD4 T細(xì)胞和CD8 T細(xì)胞在只用RNA模態(tài)的情況下,不能很好地區(qū)分,需要加上蛋白的信息;而如果只用蛋白的模態(tài),單核細(xì)胞monocytes和樹突狀DC細(xì)胞不能很好地分開,需要加上RNA的信息(圖2)。Concerto在整合了RNA和蛋白質(zhì)兩個(gè)模態(tài)后,學(xué)到了更好的細(xì)胞表征:細(xì)胞大類和存在細(xì)微生物差異的細(xì)胞亞群都被很好地區(qū)分,而且也很好地捕捉到了細(xì)胞發(fā)育的軌跡。如CD8 T細(xì)胞譜系,可以看到CD8 na?ve — CD8 TCM — CD8 TEM的軌跡,并且可以通過高維超球面空間到二維的映射看出,殺傷性的T細(xì)胞和NK細(xì)胞的距離更近,說明Concerto學(xué)習(xí)到的映射空間可以將功能接近的細(xì)胞互相靠近。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

圖2 Concerto在RNA、蛋白、RNA+蛋白三種設(shè)置下學(xué)到的細(xì)胞表征

在遷移注釋任務(wù)的表現(xiàn)

在公開的胰島細(xì)胞數(shù)據(jù)集上(HP)遷移注釋任務(wù)中,與目前主流單細(xì)胞遷移注釋算法比較,Concerto準(zhǔn)確率最高(圖3),超過了紐約基因組中心Rahul Satija團(tuán)隊(duì)開發(fā)的Seurat V4[6]、德國亥姆霍茲慕尼黑中心Fabian Theis團(tuán)隊(duì)開發(fā)的scArches[7]以及Broad研究所Soumya Raychaudhuri團(tuán)隊(duì)開發(fā)的Symphony[8]。人類胰島數(shù)據(jù)集(HP)包括5種單細(xì)胞測序方法得到的數(shù)據(jù),Concerto整合4種技術(shù)構(gòu)建了一個(gè)參考空間,在這個(gè)過程中沒有用到任何標(biāo)簽信息,只是“each cell learns from itself”。然后把待注釋的數(shù)據(jù)投射到這個(gè)參考空間,每個(gè)待注釋的細(xì)胞都可以“找到”在參考空間里和它最像的k個(gè)參考細(xì)胞,最后只需要綜合這k個(gè)參考細(xì)胞的信息就可以為待注釋細(xì)胞打上注釋。另外,Concerto除了可以跨技術(shù)平臺(tái)進(jìn)行遷移注釋,也可以跨物種進(jìn)行遷移注釋。圖3右展示了Concerto利用HP數(shù)據(jù)構(gòu)建參考空間,對(duì)鼠胰島(MP)細(xì)胞進(jìn)行注釋的性能。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

圖3 胰島數(shù)據(jù)集上遷移注釋性能比較,

華大智造Concerto模型準(zhǔn)確率超過現(xiàn)有方法

就像序列比對(duì)工具BLAST 將生物序列數(shù)據(jù)比對(duì)到參考基因組的功能一樣,將新產(chǎn)出的包含不同樣本、研究、疾病狀態(tài)的單細(xì)胞數(shù)據(jù)集,映射到復(fù)雜的、數(shù)百萬細(xì)胞的參考圖譜上,可以實(shí)現(xiàn)快速識(shí)別相關(guān)的細(xì)胞狀態(tài)和表型,此種方法將成為單細(xì)胞數(shù)據(jù)分析的全新范式。本研究另一亮點(diǎn)在于,利用現(xiàn)有已注釋數(shù)據(jù)構(gòu)建大型的細(xì)胞圖譜作為參考(Reference),新的數(shù)據(jù)作為查詢(query),可以直接在Reference上“查找”最相近的“已知“細(xì)胞,這樣我們就可以知道query細(xì)胞的性質(zhì)了。

構(gòu)建百萬級(jí)別免疫細(xì)胞參考圖譜,對(duì)新冠數(shù)據(jù)進(jìn)行快速注釋

在COVID-19研究中,研究人員將華大智造DNBelab C4產(chǎn)出的新冠病人外周血單核細(xì)胞(PBMC)數(shù)據(jù)與其他研究小組已發(fā)表的通過其他平臺(tái)所采集的數(shù)據(jù)進(jìn)行整合,構(gòu)建了大型新冠病人外周血免疫細(xì)胞參考圖譜,涵蓋了健康人及輕型、重型COVID-19患者,并針對(duì)查詢數(shù)據(jù)集進(jìn)行快速注釋,發(fā)現(xiàn)不同感染狀態(tài)差異的免疫學(xué)信號(hào)。由于在參考數(shù)據(jù)中存在與查詢數(shù)據(jù)類似的與疾病相關(guān)的細(xì)胞狀態(tài),所以Concerto可以快速將查詢新冠數(shù)據(jù)集映射到參考圖譜上。Schulte-Schrepping等人[9]的研究主要針對(duì)髓系細(xì)胞,如單核細(xì)胞monocytes和中性粒細(xì)胞neutrophils在不同感染狀態(tài)下的差異。通過參考映射的快速注釋,復(fù)現(xiàn)了該數(shù)據(jù)集的淋系細(xì)胞與其他新冠研究里的一致信號(hào),如Concerto注釋了稀有細(xì)胞亞群proliferative-exhausted CD8 T,與Su[10]等人的研究一致。

此前,深圳華大生命科學(xué)研究院劉龍奇團(tuán)隊(duì)聯(lián)合中國疾控中心等機(jī)構(gòu)科學(xué)家利用華大智造C4單細(xì)胞平臺(tái)進(jìn)行了大規(guī)模的新冠研究[11],注釋出了activated CD4 T細(xì)胞,并發(fā)現(xiàn)這種細(xì)胞的豐度會(huì)在患者體內(nèi)上調(diào)。此次,利用Concerto構(gòu)建的新冠參考數(shù)據(jù)集包含了這種細(xì)胞類型,也成功在Schulte-Schrepping的數(shù)據(jù)集中注釋出activated CD4 T細(xì)胞,同時(shí)發(fā)現(xiàn)Schulte-Schrepping數(shù)據(jù)集中新冠患者的activated CD4 T細(xì)胞差異高表達(dá)CD2AP基因,也與此前華大研究院等人的發(fā)現(xiàn)一致。通過此項(xiàng)研究也證明,華大智造C4平臺(tái)產(chǎn)出的數(shù)據(jù)可以和其他平臺(tái)適配。將來科研人員可以利用Concerto構(gòu)建整合不同單細(xì)胞數(shù)據(jù)產(chǎn)出平臺(tái)的大型參考數(shù)據(jù)集,用以對(duì)新產(chǎn)出的數(shù)據(jù)進(jìn)行快速注釋。

Nature子刊!華大智造研發(fā)團(tuán)隊(duì)發(fā)布基于對(duì)比學(xué)習(xí)的多模態(tài)單細(xì)胞算法,快速實(shí)現(xiàn)千萬級(jí)單細(xì)胞多組學(xué)數(shù)據(jù)建模-肽度TIMEDOO

圖4 將健康人與COVID-19患者整合的參考數(shù)據(jù)集對(duì)查詢數(shù)據(jù)集進(jìn)行遷移注釋

華大智造高級(jí)副總裁倪鳴博士表示:“單細(xì)胞組學(xué)的研究已進(jìn)入高通量、大數(shù)據(jù)、多模態(tài)的研究階段,此次基于對(duì)比學(xué)習(xí)的最新人工智能方法Concerto 用于單細(xì)胞參考數(shù)據(jù)集映射注釋成果的發(fā)布,豐富了華大智造此前自主研發(fā)DNBelab C4單細(xì)胞平臺(tái),實(shí)現(xiàn)了單細(xì)胞組學(xué)領(lǐng)域硬件與軟件的深度結(jié)合,相信未來會(huì)在單細(xì)胞領(lǐng)域賦能更多用戶?!?/strong>單細(xì)胞多組學(xué)時(shí)代的來臨,使得重新定義細(xì)胞成為可能。華大集團(tuán)聯(lián)合創(chuàng)始人、董事長汪建曾提出 “六定”:定性、定量、定位、定時(shí)、定向、定標(biāo)。未來,華大智造將繼續(xù)開發(fā)用于單細(xì)胞多組學(xué)研究的硬件、試劑、軟件工具,支持科研人員提高研究效率、拓展探索的邊界。
華大智造楊夢、楊悅羽霄、謝辰熙是文章的第一作者
本研究所使用數(shù)據(jù)均來自公開已發(fā)表數(shù)據(jù)
參考文獻(xiàn)
[1]??Abdi, H. & Williams, L. J. Principal component analysis. Wiley Interdiscip.Rev. Comput. Stat. 2, 433–459 (2010).

[2]??Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. A simple framework for

contrastive learning of visual representations in International Conference on

Machine Learning 1597–1607 (PMLR, 2020).

[3]??He, K., Fan, H., Wu, Y., Xie, S. & Girshick, R. Momentum contrast for

unsupervised visual representation learning in Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition 9729–9738 (IEEE,

2020).

[4]??Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R.

Dropout: a simple way to prevent neural networks from overfitting. J. Mach.

Learn. Res. 15, 1929–1958 (2014).

[5]??Wang, T. & Isola, P. Understanding contrastive representation learning

through alignment and uniformity on the hypersphere. In International

Conference on Machine Learning 9929–9939 (PMLR, 2020).

[6]??Hao, Y. et al. Integrated analysis of multimodal single-cell data. Cell 184,

3573–3587.e29 (2021).

[7]??Lotfollahi, M. et al. Mapping single-cell data to reference atlases by transfer

learning. Nat. Biotechnol. 40, 121–130 (2022).

[8]??Kang, J. B. et al. Efficient and precise single-cell reference atlas mapping with

Symphony. Nat. Commun. 12, 1–21 (2021).

[9]??Schulte-Schrepping, J. et al. Severe COVID-19 is marked by a dysregulated

myeloid cell compartment. Cell 182, 1419–1440 (2020).

[10]??Su, Y. et al. Multi-omics resolves a sharp disease-state shift between mild and

moderate COVID-19. Cell 183, 1479–1495 (2020).

[11]? Zhu, L. et al. Single-cell sequencing of peripheral mononuclear cells reveals

distinct immune response landscapes of COVID-19 and influenza patients.

Immunity 53, 685–696 (2020).