高通量測序的進展推動了蛋白質(zhì)序列數(shù)量的快速增長。盡管如此,由于實驗研究需要較長的周期并且費用昂貴,大部分蛋白質(zhì)序列缺乏功能注釋。因此,具備自動而準(zhǔn)確推斷蛋白質(zhì)功能的計算方法變得至關(guān)重要。

深度學(xué)習(xí)的進展推動了各種蛋白質(zhì)功能預(yù)測模型的發(fā)展。蛋白質(zhì)的三維結(jié)構(gòu)與功能密切相關(guān),然而,結(jié)構(gòu)相似的蛋白質(zhì)可能具有高度多樣的序列。僅仰賴基于序列的模型(如1D CNN或Transformer)可能難以捕捉到長程的功能位點規(guī)律。隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測研究的突破性進展,獲取蛋白質(zhì)接觸圖或三維結(jié)構(gòu)的方法變得更加容易。這為圖神經(jīng)網(wǎng)絡(luò)(GNN)提供了更多優(yōu)勢,它可以編碼蛋白質(zhì)的三維結(jié)構(gòu)信息以預(yù)測其功能。然而,目前的GNN模型仍然面臨過度平滑的問題,而且簡單的池化方法難以準(zhǔn)確突顯重要的殘基節(jié)點貢獻。

北京大學(xué)化學(xué)與分子工程學(xué)院、定量生物學(xué)中心、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心來魯華課題組與北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、定量生物學(xué)中心鄧明華課題組合作發(fā)展了一種新的蛋白質(zhì)功能預(yù)測模型:HEAL(Hierarchical graph transformEr with contrAstive Learning)。HEAL利用Hierarchical Graph Transformer(HGT)來學(xué)習(xí)蛋白質(zhì)的結(jié)構(gòu)信息。該方法通過引入模仿功能motif的超節(jié)點,與蛋白質(zhì)圖中的殘基節(jié)點進行交互,并通過池化操作生成蛋白質(zhì)圖的嵌入表示。為了增強網(wǎng)絡(luò)的表達能力,HEAL還引入了圖對比學(xué)習(xí),以最大化不同視圖之間的相似性。此外,HEAL模型還利用AlphaFold2預(yù)測蛋白質(zhì)結(jié)構(gòu)的功能信息,以提升在實際應(yīng)用場景中的性能表現(xiàn)。

來魯華課題組及其合作者研究出多層級的圖神經(jīng)網(wǎng)絡(luò)推動蛋白質(zhì)功能預(yù)測的發(fā)展-肽度TIMEDOO

HEAL模型對蛋白質(zhì)的建圖方式及網(wǎng)絡(luò)架構(gòu)

HEAL模型在被廣泛使用的PDBch測試集上展現(xiàn)出了卓越的性能,不僅超越了傳統(tǒng)的基于序列比對的方法(Blast和FunFams),還超越了基于序列特征的1D CNN深度學(xué)習(xí)模型DeepGO和基于結(jié)構(gòu)特征的GNN模型DeepFRI。為了測試模型在缺乏實驗解析結(jié)構(gòu)與已標(biāo)注同源序列的更真實場景下的應(yīng)用,研究者構(gòu)建了更具挑戰(zhàn)性的AFch測試集,并將HEAL模型與前述的DeepFRI、以及結(jié)合同源序列比對和1D CNN序列模型的DeepGOPlus進行了比較。研究結(jié)果表明,在這個更具挑戰(zhàn)性的應(yīng)用場景下,HEAL模型顯示出了更大的潛力和優(yōu)勢。

相關(guān)工作近日發(fā)表在Bioinformatics上,北京大學(xué)北大-清華生命科學(xué)聯(lián)合中心博士研究生顧仲暉與北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院羅霄博士為共同第一作者。北京大學(xué)定量生物學(xué)中心的博士研究生陳佳曉對于該工作的完成做出了重要貢獻。文章的通訊作者為北京大學(xué)化學(xué)與分子工程學(xué)院、定量生物學(xué)中心、北京大學(xué)-清華大學(xué)生命科學(xué)聯(lián)合中心來魯華教授和北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院、定量生物學(xué)中心鄧明華教授。該研究得到了國家重點研發(fā)計劃、國家自然科學(xué)基金、中國醫(yī)學(xué)科學(xué)院創(chuàng)新單元、北京分子科學(xué)國家研究中心和北大-清華生命科學(xué)聯(lián)合中心的資助。

原文鏈接:https://doi.org/10.1093/bioinformatics/btad410