北京大學高歌課題組提出基因丟失鑒定新方法
作為細胞中基本的功能單位,蛋白編碼基因(Protein-coding genes,以下簡稱基因)可以通過轉錄-翻譯過程指導合成對于生命活動至關重要的蛋白質,進而影響生命體的生理/病理性狀。因此,基因的演化與生物體的表型演化息息相關,是介導物種特異性表型及其環(huán)境適應的重要動力之一。在演化過程中生物體可以獲得新的基因來執(zhí)行新的功能;因此,自上世紀后期至今,新基因(Gene Birth)已成為相關領域的研究熱點。另一方面,萬物皆有生有滅,與不斷涌現(xiàn)的新基因相對,現(xiàn)有的蛋白編碼基因也可能因突變等失去原有的功能并進而從基因組中丟失。然而,受限于可用數(shù)據(jù)等多方面因素,對基因丟失(Gene Loss)及其影響長期以來尚缺乏系統(tǒng)研究。
近日,北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、北京未來基因診斷高精尖創(chuàng)新中心(ICG)、北京大學生命科學學院生物信息中心(CBI)、蛋白質與植物基因研究國家重點實驗室高歌課題組在期刊Molecular Biology and Evolution上發(fā)表了題為“Genome-wide identification of gene loss events suggests loss relics as a potential source of functional lncRNAs in humans”的生物信息學論文,在前期工作基礎上提出了新的基因丟失鑒定方法LOST&FOUND,并基于該方法對人類中的基因丟失及其影響進行了系統(tǒng)解析。
為精準鑒定基因丟失事件,高歌團隊提出了新的基因丟失鑒定方法LOST&FOUND。LOST&FOUND的具體處理流程如圖1所示。LOST&FOUND結合了全基因組比對以及多物種中的直系同源基因數(shù)據(jù),并運用最大簡約法等處理方法來對基因丟失進行鑒定識別。基于多物種直系同源基因關系的推斷可使LOST&FOUND避免將參考物種中的基因獲得事件錯誤識別為待研究物種中的基因丟失事件。而全基因組比對的使用則可充分考慮基因及其上下游區(qū)段的同源性,有利于LOST&FOUND識別由大片段刪除等方式造成的基因丟失事件。
圖1
基于該方法,團隊在人類基因組中共鑒定到155個基因丟失事件。其中,有88個基因丟失事件在人類基因組內含有同源區(qū)段殘?。╮elics)。有趣的是,通過將基因丟失殘骸與長非編碼RNA區(qū)段進行比較,團隊發(fā)現(xiàn),在人類基因組中,有33個基因丟失事件的發(fā)生與長非編碼RNA的起源相關,并將該部分通過基因丟失起源的長非編碼RNA命名為derived lncRNA(圖2 A-B)。
圖2
綜合多方面的注釋,團隊發(fā)現(xiàn),derived lncRNA與其它長非編碼RNA不同,其往往有著更高的表達量、更低的組織表達特異性、更長的轉錄本結構以及更強的序列保守性(圖3 A-F)?;贕WAS、共表達、已有實驗檢索等功能性分析的結果則表明,這部分derived lncRNA與生長發(fā)育、免疫、生殖以及抑癌作用等過程的調控均有關系。同時,超過一半的derived lncRNA均受到了正選擇的作用。
圖3
高歌團隊開發(fā)了新的基因丟失鑒定方法并通過該方法系統(tǒng)性研究了人類基因組中基因丟失的發(fā)生與影響。值得注意的是,高歌團隊在人類基因組中發(fā)現(xiàn)了33個基因丟失事件與長非編碼RNA的起源相關,且這部分長非編碼RNA可能具有重要功能。結合前期已發(fā)表工作1-3,這些結果提示在多個物種中,演化過程中古老的蛋白編碼基因有可能“再生”為新的長非編碼RNA來發(fā)揮作用,在基因生-死、編碼-非編碼等看似對立的概念之間建立起了有趣的聯(lián)系。
高歌的博士生溫正揚為該論文第一作者,高歌為該論文通訊作者。該研究得到了蛋白質與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創(chuàng)新中心等的資助。計算分析工作于北京大學高性能計算校級公共平臺和北京大學太平洋高性能計算平臺完成。
參考文獻:
1 Duret, L., Chureau, C., Samain, S., Weissenbach, J. & Avner, P. The Xist RNA gene evolved in eutherians by pseudogenization of a protein-coding gene. Science312, 1653-1655 (2006).
2 Zhao, Y. et al. Identification and analysis of unitary loss of long-established protein-coding genes in Poaceae shows evidences for biased gene loss and putatively functional transcription of relics. BMC Evol Biol15, 66 (2015).
3 Hezroni, H. et al. A subset of conserved mammalian long non-coding RNAs are fossils of ancestral protein-coding genes. Genome Biol.18, 162 (2017).
來源:北京大學


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉載。