AI技術(shù)從零開(kāi)始生成原始蛋白質(zhì)
科學(xué)家創(chuàng)建了一個(gè)能夠從頭開(kāi)始生成人造酶的人工智能系統(tǒng)。在實(shí)驗(yàn)室測(cè)試中,其中一些酶與自然界中發(fā)現(xiàn)的酶一樣有效,即使它們的人工生成的氨基酸序列與任何已知的天然蛋白質(zhì)存在顯著差異。相關(guān)研究結(jié)果發(fā)表于《自然—生物技術(shù)》。

圖片來(lái)源:IAN C. HAYDON/UW INSTITUTE FOR PROTEIN DESIGN
該實(shí)驗(yàn)表明,自然語(yǔ)言處理雖然是為讀寫語(yǔ)言文本而開(kāi)發(fā)的,但至少可以學(xué)習(xí)一些生物學(xué)的基本原理。Salesforce Research開(kāi)發(fā)了名為ProGen的AI程序,該程序使用下一個(gè)標(biāo)記預(yù)測(cè)將氨基酸序列組裝成人造蛋白質(zhì)。
科學(xué)家表示,這項(xiàng)新技術(shù)可能比獲得諾貝爾獎(jiǎng)的蛋白質(zhì)設(shè)計(jì)技術(shù)定向進(jìn)化更強(qiáng)大,它將加速新蛋白質(zhì)的開(kāi)發(fā),為已有50年歷史的蛋白質(zhì)工程領(lǐng)域注入活力。這些新蛋白質(zhì)幾乎可以用于從治療到降解塑料的任何領(lǐng)域。
“人工設(shè)計(jì)的性能比受進(jìn)化過(guò)程啟發(fā)的設(shè)計(jì)好得多?!痹撗芯孔髡咧?、加州大學(xué)舊金山分校藥學(xué)院生物工程和治療科學(xué)教授James Fraser表示,語(yǔ)言模型正在學(xué)習(xí)進(jìn)化的各個(gè)方面,但它不同于正常的進(jìn)化過(guò)程?!拔覀儸F(xiàn)在能夠針對(duì)特定效果調(diào)整這些屬性的生成。如一種非常熱穩(wěn)定或喜歡酸性環(huán)境或不會(huì)與其他蛋白質(zhì)相互作用的酶?!?/p>
為了創(chuàng)建這個(gè)模型,科學(xué)家們只需將2.8億種不同蛋白質(zhì)的氨基酸序列輸入機(jī)器學(xué)習(xí)模型中,并讓它消化信息幾周。然后,他們通過(guò)使用來(lái)自五個(gè)溶菌酶家族的56,000個(gè)序列,以及有關(guān)這些蛋白質(zhì)的一些上下文信息來(lái)對(duì)模型進(jìn)行微調(diào)。
該模型迅速生成了100萬(wàn)個(gè)序列,研究團(tuán)隊(duì)根據(jù)它們與天然蛋白質(zhì)序列的相似程度,以及AI蛋白質(zhì)的潛在氨基酸“語(yǔ)法”和“語(yǔ)義”的自然程度,選擇了100個(gè)進(jìn)行測(cè)試。
在第一批由Tierra生物科學(xué)公司體外篩選的100種蛋白質(zhì)中,該團(tuán)隊(duì)制作了5種人工蛋白質(zhì)以用于細(xì)胞測(cè)試,并將其活性與雞蛋清中發(fā)現(xiàn)的一種酶(雞蛋清溶菌酶,HEWL)進(jìn)行比較。在人類的眼淚、唾液和牛奶中也發(fā)現(xiàn)了類似的溶菌酶,它們可以抵御細(xì)菌和真菌。
其中兩種人工酶能夠分解細(xì)菌的細(xì)胞壁,其活性與HEWL相當(dāng)。但它們的序列彼此只有約18%相同,這兩個(gè)序列與任何已知蛋白質(zhì)的同一性約為90%和70%。
天然蛋白質(zhì)中只要有一個(gè)突變就能使其停止工作,但在另一輪篩選中,研究小組發(fā)現(xiàn),即使只有31.4%的序列與任何已知的天然蛋白質(zhì)相似,AI生成的酶仍顯示出活性。
人工智能甚至能夠通過(guò)簡(jiǎn)單地研究原始序列數(shù)據(jù)來(lái)了解酶應(yīng)該如何形成。通過(guò)X射線晶體學(xué)測(cè)量發(fā)現(xiàn),人造蛋白質(zhì)的原子結(jié)構(gòu)看起來(lái)和它們應(yīng)該有的樣子一樣,盡管這些序列是前所未有的。
2020年,Salesforce Research基于他們的研究人員最初開(kāi)發(fā)用于生成英語(yǔ)文本的一種自然語(yǔ)言編程,開(kāi)發(fā)了 ProGen。他們從之前的工作中了解到,人工智能系統(tǒng)可以自學(xué)語(yǔ)法和單詞的含義,以及其他使寫作井井有條的基本規(guī)則。
“當(dāng)你用大量數(shù)據(jù)訓(xùn)練基于序列的模型時(shí),它們?cè)趯W(xué)習(xí)結(jié)構(gòu)和規(guī)則方面確實(shí)非常強(qiáng)大,能夠了解哪些詞可以同時(shí)出現(xiàn),以及組合性?!痹撗芯客ㄓ嵶髡咧?、Salesforce Research人工智能研究主管Nikhil Naik說(shuō)。
對(duì)于蛋白質(zhì),設(shè)計(jì)選擇幾乎是無(wú)限的。溶菌酶和蛋白質(zhì)一樣小,最多約有300個(gè)氨基酸。但是有20種可能的氨基酸,就有20300種可能的組合。這比有史以來(lái)所有人類的總和乘以地球上的沙粒數(shù)再乘以宇宙中的原子數(shù)還要多。
鑒于無(wú)限的可能性,該模型能夠如此輕松地產(chǎn)生工作酶是非常了不起的。
該研究通訊作者之一、Profluent Bio創(chuàng)始人Ali Madani說(shuō):“開(kāi)箱即用的從頭開(kāi)始生成功能性蛋白質(zhì)的能力表明,我們正在進(jìn)入蛋白質(zhì)設(shè)計(jì)的新時(shí)代。對(duì)于蛋白質(zhì)工程師來(lái)說(shuō),這是可用的多功能新工具,我們期待看到它的治療應(yīng)用?!?/p>
相關(guān)論文信息:https://doi.org/10.1038/s41587-022-01618-2
來(lái)源:中國(guó)科學(xué)報(bào)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。