全球首個百億級人類基因組基礎模型Genos發(fā)布!
在生命科學的前沿探索中,我們早已能高效“讀出”生命的序列,但如何從30億堿基對中“讀懂”生命奧秘,長期以來都是一項巨大挑戰(zhàn),如同在沒有地圖的荒野中尋找路徑。
據(jù)肽度TIMEDOO獲悉,10月23日,在第二十屆國際基因組學大會(ICG-20)上,華大生命科學研究院與之江實驗室聯(lián)合發(fā)布了全球首個百億參數(shù)人類基因組通用基礎模型——Genos。這一針對人類基因組深度優(yōu)化的基因組基礎模型,可支持高達百萬堿基對的超長上下文分析,并實現(xiàn)單堿基分辨率的精準識別。
Genos的推出標志著基因組研究從“讀出”堿基序列邁向“讀懂”生命底層邏輯的一次關鍵轉(zhuǎn)折,有望為臨床疾病診斷、個人基因組解讀及前沿科學研究帶來突破性變革。
據(jù)悉,Genos的相關成果已發(fā)表于國際學術期刊GigaScience。
文章截圖(https://doi.org/10.1093/gigascience/giaf132)
廣度、深度、效率兼具,一款真正具有生產(chǎn)力的基因組大模型
要讀懂“生命之書”,首先需要一本完整的“字典”。
基因組學領域內(nèi)的現(xiàn)有模型大多基于一到兩個參考基因組進行訓練,難以捕捉人類豐富的遺傳多樣性。而Genos則系統(tǒng)整合了人類泛基因組參考聯(lián)盟(HPRC)、人類基因組結構變異圖譜計劃(HGSVC)等多個權威公開資源,首次匯聚了全球范圍內(nèi)636個“端粒到端?!保═2T)級別的高質(zhì)量人類基因組作為訓練數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全球不同人群,旨在從源頭減少數(shù)據(jù)偏見,更全面地代表人類遺傳多樣性。
基因組的語言極其復雜,一個微小的單堿基突變,其影響可能由百萬堿基之外的“遙遠”調(diào)控元件決定。這要求模型既要有“顯微鏡”般的單堿基精度,又要有“廣角鏡”般的百萬級超長上下文理解能力。
如同閱讀一部鴻篇巨著,既能一字不差地記住細節(jié),又能洞悉全局的宏大敘事。Genos通過混合專家(Mixture-of-Experts, MoE)架構,巧妙地解決了這一挑戰(zhàn)。MoE架構如同一個擁有眾多頂尖專家的智慧團隊,面對任務時,總能精準調(diào)度最相關的幾位專家協(xié)同處理,而不是調(diào)動所有人全部待命。這一“按需激活”的機制,讓Genos在擁有百億級參數(shù)的龐大知識總量的同時,推理成本和資源消耗卻遠低于同等規(guī)模的模型,真正實現(xiàn)了“既強大,又好用”。
為了全面驗證模型的性能,研發(fā)團隊進行了一系列測試。在基因組元件識別、遠程調(diào)控預測、突變致病性預測等經(jīng)典評測任務里,Genos在超過一半的任務里比所有現(xiàn)有模型都表現(xiàn)更好,而且長序列評測任務里,如突變熱點識別和族群分類上,Genos的表現(xiàn)遠超同類模型,展現(xiàn)了其強大的上下文分析能力,有效破譯基因組中的“暗物質(zhì)”。
更重要的是,Genos在直接面向臨床應用的致病性突變解讀任務中,實現(xiàn)了92%的準確性,當結合021科學基礎模型后,準確率更是高達98.3%,為臨床診斷提供了全新的高效工具。綜合多項評測結果,Genos在各項核心任務中的表現(xiàn)均全面超越了現(xiàn)有最佳水平(SOTA),證明了其卓越且全面的能力。
共有、共為、共享,讓前沿科技觸手可及
一個模型無論多么強大,如果不能被方便地部署和使用,其價值便大打折扣。目前,全球基因組學領域尚無一款能夠被開發(fā)者和研究者直接部署、用于下游應用的百億級人類基因組基礎大模型。而Genos的發(fā)布,則填補了這一空白。它是一個可以走向臨床、走向個人、走向每一個實驗室的“實踐先鋒”,為無限的下游應用創(chuàng)新提供了堅實的地基。
今年是人類基因組草圖繪制完成25周年?!肮灿?、共為、共享”,既是人類基因組計劃的精神傳承,也是Genos與生俱來的核心理念。
發(fā)布會上,華大生命科學研究院宣布,Genos模型將全面、徹底地開源開放,且同時提供12億和100億參數(shù)兩個版本,滿足不同應用場景的需求。目前,兩個版本的模型權重、架構細節(jié)與完整訓練流程,均已在GitHub、Hugging Face、魔搭等平臺依據(jù)MIT開源協(xié)議公開發(fā)布,供全球開發(fā)者和科研人員自由使用。同時,在之江實驗室的開放平臺Zero2X也已發(fā)布。
另外,考慮到并非所有使用者都擁有強大的算力資源,該模型已被深度整合進DCS Cloud云平臺。用戶無需進行復雜的安裝配置,即可一鍵調(diào)用Genos,平臺為每個賬戶提供了高達10萬次的免費推理服務,極大地降低了基因組智能分析的門檻。
目前,在科研領域,Genos模型通過與DCS?cloud結合,能僅憑DNA序列“秒級”預測RNA表達譜,將過去數(shù)周甚至數(shù)月才能完成的生物信息分析流程極大提速。此外,Genos模型也已整合進生命科學數(shù)據(jù)庫CNGBdb,可幫助用戶精準預測細胞表達量,高效篩選和驗證關鍵候選基因,大幅加速科研發(fā)現(xiàn)。
在臨床應用領域,Genos模型與華大已發(fā)布的GeneT深度思考模型結合,能為遺傳疾病診斷提供專家級的多模態(tài)解讀。而在個人健康領域,目前Genos模型已整合進BGE平臺,將賦能個人基因組報告解讀,把復雜的生命代碼翻譯成每個人都能讀懂的、個性化的健康“說明書”。
值得一提的是,Genos的誕生,源自一次大膽的跨界融合與人才培養(yǎng)實踐。該模型的核心研發(fā)團隊,來自華大生命科學研究院與之江實驗室聯(lián)合發(fā)起的“大模型種子班”。這個匯聚了生物信息專家與計算科學骨干的精英團隊,依托“以問題導向?qū)嵱?、以任務?qū)動創(chuàng)新”的模式,正推動生命科學研究從“數(shù)據(jù)挖掘”邁向“智能涌現(xiàn)”的新紀元。也正是這種跨界碰撞,為Genos的顛覆性創(chuàng)新注入了最核心的動力。
此次Genos的發(fā)布,標志著一個新時代的開啟:一個基因組智能分析的時代,一個人人都能讀懂自己生命天書的時代,正加速到來。為持續(xù)推動模型迭代,華大生命科學研究院近期還聯(lián)合國內(nèi)外多家單位共同發(fā)起了“十萬長讀長大人群聯(lián)盟(Long100K Genomes Consortium)”和“百億細胞計劃(10BC)”兩項大科學計劃。其中,“十萬長讀長大人群聯(lián)盟”將依托最新的Cyclone長讀長測序技術,完成10萬人的“端粒到端?!奔墑e完整基因組測序,為基因組大模型提供高質(zhì)量的訓練數(shù)據(jù)。而“百億細胞計劃”則將依托Stereo-Cell超高通量細胞組學技術,完成百億細胞測序,助力基因和細胞的融合大模型開發(fā)。從基因組到多組學,一個更強大的生命科學基礎模型正在孕育之中。
編輯:李麗


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。