轉錄因子(TFs)作為基因表達的“指揮家”,通過與雙鏈DNA(dsDNA)上的特定序列-轉錄因子結合位點(TFBS)結合,來調控基因的轉錄。傳統(tǒng)TF與dsDNA的結合序列的確定實驗是由DNA酶切的“足跡”(Foot-printing)法獲得。借助“足跡”法,科學家發(fā)現(xiàn)了很多不同DNA結合序列,即Motifs。隨著基因組學的發(fā)展,成千上萬個TFs已被確定出來。如何高效、準確地識別和刻畫TF的TFBS,特別是理解這些不同的TFs是如何快速靶向其特異結合位點,一直是分子生物學家探索的難題之一??茖W家相繼開發(fā)了ChIP-seq方法及其多種現(xiàn)代版本、SELEX及其HT-SELEX(high-throughput systematic evolution of ligands by exponential enrichment)方法和PBM(protein binding microarray),以及MITOMI等單分子實驗進行體內和體外實驗來探索該問題。在計算方面,通常采用位置權重矩陣(PWM)來描述和計算TFBS Motif的特征,但PWM方法假設堿基間相互獨立,得到Motif(通常長度在810bp)受實驗方法和序列比對的影響并不一致,且該方法只能從序列的角度總結TF的特異性結合規(guī)律,無法從物理機制角度來解釋TF如何高效識別并結合到目標位點。近年來的研究還表明,TF在基因組中的搜索過程可能受到TFBS周圍重復簡并序列的引導?;蚪M中普遍存在的短串聯(lián)重復序列(STRs;26個堿基對的串聯(lián)重復)在轉錄調控中也發(fā)揮著重要作用。然而,這些DNA結合方式的具體機制細節(jié)仍不清晰,也很難用傳統(tǒng)的Motif概念來解釋。

北京大學生命科學學院蘇曉東課題組揭示短序列錨定元件AE在DNA與蛋白質結合中的重要作用-肽度TIMEDOO

原文截圖

2025年3月26日,生命科學學院/生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)蘇曉東課題組在Advanced Science上在線發(fā)表了題為“DNA–Protein Binding is Dominated by Short Anchoring Elements”的研究論文。該研究揭示了TF與DNA結合時短序列(3—4個堿基對)起到主導作用,并將該短序列命名為錨定元件(Anchoring Elements, AEs)。論文還指出AE的密度(AED)能夠吸引相應TF并促進其進一步搜索并結合到其TFBS上。

研究團隊此前已經基于二代深度測序技術(NGS)開發(fā)了一種全面測量熱平衡態(tài)下TF與所有可能的DNA序列的結合能力的實驗方法KaScape(Chen, H., Xu, Y., Jin, J. et al. Sci Rep 13, 16595 (2023))。本研究進一步以擬南芥WRKY1和人類PU.1等轉錄因子為模型,利用KaScape方法系統(tǒng)分析了TF與DNA的結合特性。研究發(fā)現(xiàn),結合能力較強的序列中均含有一段共有的3—4個堿基對的短序列且只要含有該短序列,其結合能力均較強,這說明該短序列在TF與DNA的結合中起決定性作用。由此,本研究將該短序列命名為AE。擬南芥WRKY1的AE為GAC/GTC(GAC和GTC為反向互補序列),而人類PU.1的AEs為GGAA/TTCC(GGAA和TTCC為反向互補序列)。為了進一步驗證AEs的作用,研究團隊開發(fā)了AEEscape算法。該算法能夠計算隨機序列區(qū)域每個位置的k-mer結合能量,將PWM從1-mer拓展到了k-mer。該算法發(fā)現(xiàn),以WRKY為例,當短序列長度為2時,各個位置的2-mer結合能全景圖不一致;當短序列長度為3時,各個位置的結合能全景圖類似,GAC或者GTC在隨機區(qū)域的各個位置的結合能力均最強;當短序列長度為4時,隨機區(qū)域各個位置的結合能力最強的那些4-mer序列均含有GAC或者GTC。以上分析說明了AE是TF與DNA結合時的最核心、最基本的元件。本研究隨后使用AEEscape算法得到的k-mer能量全景圖預測了基因組中TFBS區(qū)域的能量譜,發(fā)現(xiàn)在TFBS區(qū)域存在“能量漏斗”現(xiàn)象,該現(xiàn)象的存在說明TFBS周圍的序列能夠幫助TF快速搜索到其目標位點。進一步研究發(fā)現(xiàn),該現(xiàn)象與TFBS附近AE的密度有關。

北京大學生命科學學院蘇曉東課題組揭示短序列錨定元件AE在DNA與蛋白質結合中的重要作用-肽度TIMEDOO

圖1 WRKY1 N端DNA結合結構域(WRKY1N)與DNA的復合物結構(6j4e.pdb)。WRKY1N覆蓋的區(qū)域(Foot-printing or Motif region)用藍色雙箭頭標出,結合時起主導作用的短DNA序列Anchoring Element(AE)對應的堿基由藍框標注。兩條DNA鏈分別標注為Watson strand和Crick strand。對WRKY1N來說,其主要與Crick strand上的GTC(AE)相互作用

為了探究AE的廣泛存在性,本研究還進一步分析了公共數(shù)據(jù)庫中相應TF的PBM數(shù)據(jù)。結果發(fā)現(xiàn)了非常有趣的相似現(xiàn)象,驗證了AE的廣泛存在性。本研究中鑒定的AEs與DNA-蛋白質復合物結構研究中描述的“核心序列”很好對應(圖1),復合物結構可以解釋結構的穩(wěn)定性及相互作用的細節(jié),但是目前的計算方法還無法很好地得到結合能,因而不能確切鑒定到最小相互作用單元必要的核心序列。這些核心序列代表了參與靜電、氫鍵、范德瓦爾斯等相互作用的關鍵堿基。這些相互作用對DNA與TF結合的熱力學穩(wěn)定性和“特異性”至關重要,只要這些“核心”堿基存在于實驗的序列中,KaScape方法即可以將其拉下來(pull-down),因此,與本研究中的AEs類似,這些“核心序列”較短,一般遠小于Motif長度。綜上所述,AE可以被視為負責TF結合的最小結構(序列)單元,也表明構成AE的短k-mer序列與TF相互作用時,應被視為一個整體,而不是獨立的堿基。由于僅從復合物結構無法準確計算出結合能,基于結構來定義“核心序列”具有一定的主觀性和隨意性,而KaScape實驗的pull-down富集結果客觀地得到了這些“核心序列”在DNA結合機制中起關鍵作用的客觀而重要的結論。

這項研究不僅為TF與DNA結合的分子機制提供了全新的視角,還為基因表達的調控研究開辟了新的方向,為未來設計基因調控工具和開發(fā)基因治療策略提供了重要的理論基礎。陳紅博士為論文的第一作者,蘇曉東為該論文的通訊作者。研究團隊未來將進一步探索AEs在更復雜生物系統(tǒng)中的作用,例如在染色質環(huán)境下TF與核小體DNA的相互作用,以及多TF協(xié)同調控基因表達的機制。這些研究將有助于更深入地理解基因調控的復雜性,并為生物信息學、精準醫(yī)學和合成生物學提供新的工具和方法。

來源:北京大學