8月14日,中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)國(guó)家基因組科學(xué)數(shù)據(jù)中心(CNCB-NGDC)在Genomics,Proteomics & Bioinformatics上,在線發(fā)表研究論文The Genome Sequence Archive Family: Toward Explosive Data Growth and Diverse Data Types。GSA數(shù)據(jù)庫(kù)體系接受全世界科研工作者的數(shù)據(jù)提交,匯交和管理各類型的數(shù)據(jù),并對(duì)所有公開(kāi)可用數(shù)據(jù)提供免費(fèi)開(kāi)放訪問(wèn),支撐生命科學(xué)研究。

組學(xué)原始數(shù)據(jù)歸檔庫(kù)(GSA)是生命組學(xué)原始測(cè)序數(shù)據(jù)管理的公益性數(shù)據(jù)庫(kù),旨在推動(dòng)全球生命組學(xué)數(shù)據(jù)的共享與應(yīng)用。近年來(lái),隨著組學(xué)數(shù)據(jù)的爆炸性增長(zhǎng)和數(shù)據(jù)類型的多樣化,以及人類遺傳資源數(shù)據(jù)管理的特殊需求,CNCB-NGDC對(duì)GSA數(shù)據(jù)庫(kù)進(jìn)行了更新和擴(kuò)展,形成了GSA數(shù)據(jù)庫(kù)體系,包括GSA、GSA-Human和OMIX。

GSA數(shù)據(jù)庫(kù)與2017發(fā)布的版本相比,在數(shù)據(jù)模型、系統(tǒng)功能和數(shù)據(jù)提交方式等方面進(jìn)行了更新和功能提升;GSA-Human是存儲(chǔ)人類遺傳資源數(shù)據(jù)的數(shù)據(jù)庫(kù),可實(shí)現(xiàn)人類遺傳資源數(shù)據(jù)的受控訪問(wèn),保障人類遺傳資源數(shù)據(jù)的安全性;OMIX數(shù)據(jù)庫(kù)存儲(chǔ)非原始測(cè)序數(shù)據(jù),如環(huán)境組、表型組、代謝組等,作為上述兩種數(shù)據(jù)資源庫(kù)的重要補(bǔ)充,有效地解決了用戶提交除原始測(cè)序數(shù)據(jù)外的其他類型數(shù)據(jù)的需求。

截至2021年8月14日,GSA和GSA-Human已收集的數(shù)據(jù)量達(dá)9.5 PB,OMIX上線不久數(shù)據(jù)量已達(dá)1.6 TB。GSA數(shù)據(jù)庫(kù)體系已為全球111個(gè)國(guó)家/地區(qū)的用戶提供數(shù)據(jù)服務(wù),平均每天的數(shù)據(jù)下載量達(dá)4 TB,已成為Elsevier、Wiley、Taylor & Francis 、Cell及Springer Nature出版集團(tuán)指定的核酸數(shù)據(jù)歸檔庫(kù),并獲得領(lǐng)域內(nèi)國(guó)內(nèi)外主流期刊的認(rèn)可。

研究工作得到國(guó)家重點(diǎn)研發(fā)計(jì)劃、中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、中科院信息化專項(xiàng)等的支持,GSA歸檔數(shù)據(jù)使用的計(jì)算機(jī)硬件設(shè)施得到國(guó)家財(cái)政部修繕購(gòu)置專項(xiàng)的支持。

論文鏈接

北京基因組所關(guān)于原始數(shù)據(jù)管理體系(GSA Family)研發(fā)取得進(jìn)展-肽度TIMEDOO

GSA Family數(shù)據(jù)模型

來(lái)源: 北京基因組研究所