Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

隨著三代測序技術(TGS,也即單分子測序技術)的發(fā)展,基于大量細胞的三代基因組測序數(shù)據(jù)被廣泛應用于各種復雜大型基因組的組裝,由于其讀長相比于二代測序(NGS)技術有數(shù)百倍的增加,因此基因組中重復序列區(qū)域以及染色體重排等復雜結(jié)構變異區(qū)域都能被更好地組裝出來。

對于人類基因組的組裝研究,端粒到端粒(T2T)聯(lián)盟在2022年3月,使用純合二倍體細胞系CHM13率先發(fā)布了首個完整的端粒到端粒的人類基因組參考序列CHM13v1.1。2022年3月,人類泛基因組聯(lián)盟(HPRC)在預印本平臺bioRxiv上發(fā)布了首個高質(zhì)量人類雜合二倍體細胞系HG002的單倍型組裝結(jié)果。

目前,高質(zhì)量的基因組組裝通常依賴于大量細胞混合樣本的三代測序數(shù)據(jù),需要大量的基因組DNA(通常需要從數(shù)百萬個細胞中提取幾十微克基因組DNA),然而在基因組組裝的實際應用中常常要面對兩個困難:

1、細胞群體中存在遺傳異質(zhì)性?;诖罅考毎鷾y序數(shù)據(jù)的基因組組裝需要確保測序的樣本中每個細胞的遺傳背景高度一致,否則組裝結(jié)果將很難區(qū)分同一個細胞內(nèi)的不同單倍型基因組之間的差異和不同細胞亞群之間的基因組差異。只有降低或者消除細胞間的遺傳異質(zhì)性才能確保單倍型組裝的準確性。但是,在人體正常組織樣本中也常常廣泛存在體細胞拷貝數(shù)變異(CNA)。與此同時,正常的人類細胞也會不斷積累突變,同一塊人體組織常常是由很多包含不同突變的細胞克隆組成。在癌癥研究中,同一個腫瘤樣本中不同癌細胞亞克隆之間的基因組異質(zhì)性就更為明顯。

2、細胞數(shù)量稀少。在很多情況下,很難獲取上百萬個細胞以提取大量(幾微克)基因組DNA。例如,在早期胚胎發(fā)育研究、司法檢驗、特別是在癌癥基因組研究中(如循環(huán)腫瘤細胞、腫瘤活檢樣本、腦脊液中的腫瘤細胞、以及腹水中的腫瘤細胞等),能夠獲取的細胞數(shù)量常常很稀少,而且這些細胞很難在體外培養(yǎng)和擴增;即使偶爾可以培養(yǎng)擴增,也不能保證在體外培養(yǎng)擴增過程中其基因組不會進一步產(chǎn)生新的遺傳變異。

基于二代測序(NGS)平臺的單細胞基因測序技術被廣泛應用于微生物等簡單小型基因組的組裝。許多種類的細菌無法在實驗室中培養(yǎng),單細胞基因組測序可以與宏基因組學方法結(jié)合起來完成微生物的基因組組裝。由于人類基因組結(jié)構、大小、以及復雜程度遠超細菌等微生物,單純使用基于二代測序平臺的大量細胞基因組測序數(shù)據(jù)也無法組裝出高質(zhì)量的人類基因組參考序列(NG50很難達到Mb(百萬堿基對)級別),那么使用少量DNA甚至單細胞基因組測序數(shù)據(jù)組裝人類基因組則更具挑戰(zhàn)性,它不僅需要基于三代測序平臺的單細胞基因組長讀長測序技術的支持,還需要合適的組裝軟件以及良好的生物信息學分析策略。

2022年7月12日,北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)湯富酬課題組在Nucleic Acids Research發(fā)表了題為De novo assembly of human genome at single-cell levels的研究論文。該研究使用優(yōu)化的SMOOTH-seq單細胞基因組三代測序技術,基于Pacific Biosciences(PacBio)HiFi和Oxford Nanopore Technologies(ONT)兩種三代測序平臺首次在單細胞水平上完成了Mb級連續(xù)性的人類基因組組裝,并使用多種評價指標,充分探索了不同測序策略和組裝工具對基因組組裝結(jié)果的影響。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

1、全面優(yōu)化了SMOOTH-seq單細胞基因組三代測序技術,使其同時適用于PacBio和ONT兩種主流單分子測序平臺。此前的SMOOTH-seq技術只適用于PacBio單分子測序平臺,使用場景有較大的局限性。優(yōu)化后的SMOOTH-seq技術既可以用于PacBio單分子測序平臺,也可以用于ONT單分子測序平臺,使用場景更加靈活,可以兼顧測序數(shù)據(jù)準確性和測序成本。

2、使用hifiasm,Hicanu,wtdbg2等主流組裝工具和95個單細胞的三代基因組測序數(shù)據(jù)(Pacbio HiFi平臺),對人類慢性粒細胞性白血?。–ML)細胞系K562進行了高質(zhì)量基因組組裝。組裝出的主要疊連群(primary contig)的NG50(可覆蓋50%的已知基因組區(qū)域的最短疊連群的長度)可達2.11Mb,也就是說在這個組裝出的參考序列中,人類基因組中一半(15億堿基對)以上的區(qū)域都被至少2.11Mb以上的疊連群覆蓋了。最長疊連群可達14.12Mb,完整的通用單拷貝同源基因基準(Complete BUSCOs)比例接近95%,且大部分組織相容性復合體(MHC)位點(基因組上的一個有代表性的復雜區(qū)域,全長約6Mb)被成功組裝出來(如圖1所示)。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖1. 95個K562細胞的基因組組裝結(jié)果(Pacbio HiFi)

3、使用hifiasm,Hicanu,wtdbg2等主流組裝工具和人類正常二倍體細胞系HG002的157個單細胞的基因組三代測序數(shù)據(jù)(Pacbio HiFi平臺)對人類基因組進行了高質(zhì)量組裝。組裝出的主要疊連群(primary contig)的NG50可達0.65Mb,最長的疊連群可達6.82Mb,完整的通用單拷貝同源基因基準(Complete BUSCOs)比例接近91%。在使用此數(shù)據(jù)進行HG002的單倍型組裝的過程中該研究發(fā)現(xiàn)經(jīng)過指數(shù)擴增的基因組數(shù)據(jù)的k-mer分布會發(fā)生偏移,因此使用有雙親二代測序數(shù)據(jù)作為輔助的Trio-binning模式進行基因組單倍型組裝結(jié)果更為準確。因此該研究分別使用Trio hifiasm和Trio Hicanu兩種組織工具進行單倍型組裝,得到的親本疊連群的NG50可達0.3Mb左右,完整的通用單拷貝同源基因基準(Complete BUSCOs)比例均超過84%。通過比較HG002親本六種經(jīng)典人類白細胞抗原(HLA)位點的組裝分型結(jié)果,Trio Hicanu能夠正確組裝出HLA區(qū)域的兩個親本的大部分基因位點(如圖2所示)。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖2. 157個HG002細胞的基因組組裝結(jié)果(Pacbio HiFi)

4、使用Flye,Necat,wtdbg2等主流組裝工具和人類正常二倍體細胞系HG002的192個單細胞的三代基因組測序數(shù)據(jù)(ONT平臺,低測序深度)對人類基因組進行高質(zhì)量組裝。研究發(fā)現(xiàn),不同的組裝工具對最終組裝結(jié)果有很大影響,F(xiàn)lye展現(xiàn)出更為適合單細胞ONT三代測序數(shù)據(jù)的特性,組裝出的疊連群的NG50可達1.38Mb,最長疊連群可達11.42Mb,完整的通用單拷貝同源基因基準(Complete BUSCOs)比例超過93%,多項指標都遠超另外兩個組裝工具。同時組裝結(jié)果能夠補齊39個hg38版本的人類參考基因組中未組裝出的缺口(gap)區(qū)域,其中14個區(qū)域在hg38中注釋的長度超過50Kb(如圖3所示)。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖3. 192個HG002細胞以及30個HG002細胞的基因組組裝結(jié)果(ONT)

5、使用Flye,wtdbg2等組裝工具和人類正常二倍體細胞系HG002的30個單細胞的三代基因組測序數(shù)據(jù)(ONT平臺,高測序深度)對人類基因組進行高質(zhì)量組裝。為了探究僅使用極少量單細胞的基因組測序數(shù)據(jù)進行人類基因組組裝的極限情況,該研究分別使用1個、10個、20個和30個單細胞嘗試進行人類基因組組裝,發(fā)現(xiàn)僅需要高測序深度的30個單細胞的基因組測序數(shù)據(jù)(平均基因組覆蓋度~41.7%)就能完成疊連群 NG50高達1.34Mb連續(xù)性的組裝。同時組裝結(jié)果能夠補齊38個hg38版本的人類參考基因組未組裝出的gap區(qū)域,其中15個區(qū)域在hg38注釋的長度超過50Kb(如圖4所示)。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖4. 30個基因組高覆蓋度HG002細胞的基因組組裝結(jié)果(ONT)

6、通過對K562細胞系基因組的從頭組裝,該研究相比于使用原始單細胞基因組三代測序數(shù)據(jù)能更精準地鑒定出更多的基因組插入事件和復雜結(jié)構變異事件。對于K562這樣的白血病細胞系,基因組從頭組裝之后是否能更好地鑒定出基因組結(jié)構變異(SV)事件是癌癥研究中的重要問題。該研究分別使用hifiasm和Hicanu組裝出的主要(primary)疊連群和替代(alternate) 疊連群來進行結(jié)構變異鑒定。發(fā)現(xiàn)組裝后的疊連群比起原始單細胞數(shù)據(jù)直接比對能更準確地鑒定出基因組插入事件,召回率達到70%以上,精確度達到90%以上。同時,K562中的三對經(jīng)典融合基因:CDC25A-GRID1、BCR-ABL1和NUP214-XKR3都能被精準地鑒定出來,而CDC25A-GRID1融合在原始單細胞基因組數(shù)據(jù)直接比對到參考基因組時是無法被發(fā)現(xiàn)的 (如圖5所示) 。為了進一步驗證基因組從頭組裝后找到的結(jié)構變異事件的準確性,該研究挑選了20個(14個插入事件,6個缺失事件)在組裝后的疊連群中被鑒定到、但是在單細胞基因組原始測序數(shù)據(jù)直接比對到參考基因組時沒有被鑒定出來的結(jié)構變異事件進行了PCR驗證,準確率高達80%,證明了組裝后的疊連群對結(jié)構變異事件的鑒定是精準可靠的(如圖6所示)。

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖5. 組裝后疊連群(contig)中結(jié)構變異事件檢測的準確性

?

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO

圖6. PCR驗證基因組結(jié)構變異事件的結(jié)果

綜上,為了解決基因組從頭組裝在實際應用中遇到的細胞遺傳異質(zhì)性和細胞稀缺性的問題,該研究使用優(yōu)化的SMOOTH-seq技術在兩種不同的主流三代測序平臺上,采用不同的測序策略(高通量、低深度測序策略(multi-cells with low sequencing depth)和低通量、高深度測序策略(few-cells with high sequencing depth)),使用多種不同組裝軟件(hifiasm,Hicanu,wtdbg2, Flye,Necat等)、多個評價指標、以及不同組裝策略,探討了利用單細胞測序數(shù)據(jù)從頭組裝人類基因組的可行性,并確定了影響組裝結(jié)果的主要因素,將基因組組裝的分辨率提高到單細胞水平(少至30個單細胞)。未來隨著單細胞測序技術和基因組組裝策略的進一步發(fā)展,最終必將實現(xiàn)只用一個單細胞的測序數(shù)據(jù)就能組裝出Mb級連續(xù)性的人類參考基因組的夢想。

北京大學生命科學學院博士生謝昊伶以及北京大學前沿交叉學科研究院博士生李文為該論文的并列第一作者。北京大學生物醫(yī)學前沿創(chuàng)新中心湯富酬教授為該論文的通訊作者。該研究項目得到了北大-清華生命科學聯(lián)合中心、國家自然科學基金委、北京市科技委和北京未來基因診斷高精尖創(chuàng)新中心的支持。

論文鏈接:

https://doi.org/10.1093/nar/gkac586

湯富酬研究員
Nucleic Acids Research | 湯富酬課題組實現(xiàn)基于單細胞測序數(shù)據(jù)的人類基因組從頭組裝-肽度TIMEDOO
湯富酬,博士,北京大學BIOPIC/ICG研究員,國家“優(yōu)青”(2013)、“杰青”(2016)。1998年本科畢業(yè)于北京大學,2003年在北大獲得細胞生物學博士學位,2004-2010年間在英國劍橋大學Gurdon研究所從事博士后研究, 2010年回到北京大學組建實驗室,主要從事人類早期胚胎發(fā)育的單細胞功能基因組學研究。在國際上率先系統(tǒng)發(fā)展了單細胞功能基因組學研究體系,并利用一系列技術體系對人類早期胚胎發(fā)育進行了深入、系統(tǒng)的研究,揭示了人類早期胚胎DNA去甲基化過程的異質(zhì)性以及其他表觀遺傳學關鍵特征,發(fā)現(xiàn)了人類早期胚胎中基因表達網(wǎng)絡的重要表觀遺傳學調(diào)控機理,為人們提供了一個全面分析人類早期胚胎表觀遺傳調(diào)控網(wǎng)絡的研究框架,加深了對人類原始生殖細胞的發(fā)育以及表觀遺傳重編程過程的認識。