隨著基因組測序技術(shù)的發(fā)展,物種和群體水平基因組數(shù)據(jù)呈指數(shù)增長。這些數(shù)據(jù)為從基因組水平鑒定和解析自然選擇機(jī)制提供了前所未有的機(jī)遇。但是,目前的分析方法面臨著一些技術(shù)瓶頸和挑戰(zhàn),其中一個關(guān)鍵問題是如何高效準(zhǔn)確地檢測作用于非編碼區(qū)的自然選擇效應(yīng)。另一方面,能夠高效、高性能地分析多物種大樣本數(shù)據(jù)也成為方法學(xué)方面的迫切要求。

中國科學(xué)院北京基因組研究所(國家生物信息中心)陳華團(tuán)隊在多物種聯(lián)合等位基因頻譜理論以及HKA(Hudson-Kreitman- Aguadé)檢驗的框架上構(gòu)建了CEGA(Comparative Evolutionary Genomic Analysis)方法。CEGA整合微進(jìn)化過程與宏觀進(jìn)化過程模型,有效刻畫自然選擇和群體歷史在非編碼區(qū)形成的遺傳多態(tài)性“印記”,可高效、準(zhǔn)確地檢測作用于非編碼區(qū)上的正向選擇及平衡選擇信號。CEGA同時分析物種間的分歧位點和物種內(nèi)的多態(tài)位點信息,當(dāng)兩物種分化時間比較短時,多態(tài)位點蘊含的信息有助于準(zhǔn)確地推斷分化時間、有效群體大小等信息,從而有利于區(qū)分自然選擇效應(yīng)與群體歷史干擾,因此該方法在不同物種分化時間尺度上具有更廣泛的適用性。仿真分析表明,對于不同的選擇強(qiáng)度以及物種分化時間,CEGA檢測正選擇及平衡選擇的效果均優(yōu)于現(xiàn)有方法。尤其對于選擇強(qiáng)度較弱或者物種分化時間比較短的情景,CEGA的優(yōu)勢更為明顯。除了用于檢測自然選擇外,研究者往往希望提供對自然選擇發(fā)生過程的深入認(rèn)識。 鑒于此,CEGA還基于群體遺傳學(xué)模型提供了對自然選擇強(qiáng)度等關(guān)鍵參數(shù)的推斷。

研究團(tuán)隊將CEGA應(yīng)用于已發(fā)表9個現(xiàn)代人類(Homo sapiens)及9個黑猩猩(Pan troglodytes ellioti)的群體基因組數(shù)據(jù),進(jìn)行了編碼區(qū)、非編碼區(qū)兩個層面上的比較分析,鑒定了在人類基因組中受自然選擇作用而快速進(jìn)化基因,并發(fā)現(xiàn)這些基因的功能顯著富集在與大腦容量、大腦皮層的總面積以及大腦皮層的厚度等相關(guān)表型和分子通路。此外,在與免疫反應(yīng)和病原體抵抗相關(guān)的區(qū)域(如主要組織相容性復(fù)合體MHC)存在顯著的平衡選擇信號。以上仿真分析以及人與黑猩猩基因組真實數(shù)據(jù)分析的結(jié)果表明,CEGA是一種有效的算法工具,可用于大規(guī)模群體基因組測序數(shù)據(jù)的高效分析。

該成果以“CEGA: a method for inferring natural selection by comparative population genomic analysis across species”為題,于10月3日發(fā)表在Genome Biology期刊。中國科學(xué)院北京基因組研究所(國家生物信息中心)陳華研究員為本文的通訊作者,中國科學(xué)院北京基因組研究所(國家生物信息中心)特別研究助理(博士后)趙石磊和助理研究員池連江為本文的共同第一作者。該研究得到了國家自然科學(xué)基金、國家重點研發(fā)計劃、中國博士后科學(xué)基金等項目的資助。

中國科學(xué)院北京基因組所開發(fā)比較群體基因組學(xué)新算法-肽度TIMEDOO

?  CEGA模型的參數(shù)及觀測數(shù)據(jù)

來源:中國科學(xué)院北京基因組所