教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO
教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO文|吳思涵

“我想做信號通路分析,但我就是不想學編程。”
“我又不是生信狗,學代碼會死?!?br> “你們這些做生信的,整天把數(shù)據(jù)分析搞得神神秘秘,不就是怕被人搶飯碗而已嘛?!?br> “這都沒分析出我想要的結(jié)果,不靠譜。”
“你們做生信的不都是寫好pipeline的嗎?怎么那么久還沒分析好?”
……

哦……

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO
教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

科研日常問題:我有一張基因/蛋白列表,想知道富集在什么通路上,如何做?

這篇文章就教大家,如何一句代碼都不用敲,通過簡單的復(fù)制粘貼還有點兩下鼠標,就能實現(xiàn)通路富集的分析

1. Metascape

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

Metascape的主界面長這樣,操作起來非常簡單,只需要按照提示,一步一步進行操作即可。數(shù)據(jù)庫更新得很勤,不怕落伍。

首先在Step 1那里,粘貼你的基因列表。然后Step 2會問你是什么物種。Step 3點Express Analysis。然后就自動出結(jié)果了,輸出的圖片顏值很高,還能下載原始的excel表回去自己作圖,還能自動導(dǎo)出成漂釀的成套的ppt結(jié)果匯報……是不是so easy?。。?/p>

氮素?。?!

Metascape有一個不是很討喜的地方,就是默認的Express Analysis,總是喜歡把各個數(shù)據(jù)庫的信號通路混一起分析,這樣很容易出現(xiàn),某些非常general的數(shù)據(jù)庫,就容易搶戲,出現(xiàn)各種冗余。比如說,下面這個結(jié)果,就是默認把Reactome、CORUM和GO數(shù)據(jù)庫全部給攪在一起展示了。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

當然,這并不是不可破解的問題。只要在Step 3那里,點擊Custom Analysis,然后在Enrichment的選項卡里,勾選你想要的數(shù)據(jù)庫就好了。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

目前,Metascape支持不少流行的數(shù)據(jù)庫,比如Hallmark Gene Sets、Reactome等,還有我最不愛用的GO和KEGG。至于其他參數(shù)是啥意思,不懂話就佛系對待吧,別改了。。。

2. Enrichr

如果嫌Metascape的數(shù)據(jù)庫少,那就試試數(shù)據(jù)庫多到上天的Enrichr吧。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表貼進去然后點submit就完事了。

我第一次用Enrichr就被震驚了!

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO
教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO
教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

這特么也太多數(shù)據(jù)庫了吧?。?!

以上只列出了其中三頁數(shù)據(jù)庫,即轉(zhuǎn)錄調(diào)控、信號通路、基因本體,后面還有疾病/藥物,細胞類型,還有一些雜七雜八的,甚至連過期數(shù)據(jù)庫都有。而且數(shù)據(jù)同樣支持導(dǎo)出。

氮素?。。?/p>

如果你用了就知道,Enrichr根本就沒問你,貼的基因到底是個啥物種。因此,這個程序有個很坑的地方,就是把所有物種的數(shù)據(jù)庫全部混一起分析了……比如下面這個WikiPathways分析,就把人和小鼠的結(jié)果一起展示了……(并且未知這種混合,是否會影響通路富集分析的結(jié)果)

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

此外,由于Enrichr的數(shù)據(jù)庫太多,所以更新不是很及時。比如上面展示的WikiPathways,還是2016年的,而這兩年WikiPathways的更新頻率幾乎是月更。

3. ConsensusPathDB

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

CPDB是德國人開發(fā)的,界面長這樣,不算很直觀。但數(shù)據(jù)庫量一樣很大,整合了32個數(shù)據(jù)庫。想做信號通路富集分析,點左邊的over-representation analysis,貼上列表,選擇數(shù)據(jù)類型(到底是gene id,還是symbol,還是別的什么),然后提交就好了。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

下一步,就是選要用哪些數(shù)據(jù)庫來分析。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

最好還是一次只選一個,因為不知道原始的程序設(shè)計是如何的,到底是各個數(shù)據(jù)庫獨立分析,還是跟metascape默認一樣,全部混一起。整體而言,分析速度極快,使用起來也很方便。

氮素?。?!

CPDB只支持分析人類基因……

4. 總結(jié)

以上這些工具的分析結(jié)果,在調(diào)教好參數(shù)的情況下(比如p值 cut-off,數(shù)據(jù)庫類型),各個網(wǎng)站出來的結(jié)果沒太大區(qū)別,所以算法上應(yīng)該都是靠譜的。我拿同一套東西跑ClusterProfiler,結(jié)果也是沒差多少。

這幾個數(shù)據(jù)庫都有什么優(yōu)缺點呢?

Metascape:支持物種多,數(shù)據(jù)庫更新非常及時,且導(dǎo)出的數(shù)據(jù)顏值高,甚至可以直接發(fā)表。但是支持數(shù)據(jù)庫較少,而且在國內(nèi)打開較慢,且運行速度有時候較慢(畢竟分析完后還要生成pdf、excel、ppt還順便打成壓縮包那么一大堆東西)。

Enrichr:數(shù)據(jù)庫多到上天,分析速度還行。但是不支持選擇特定物種,默認就是多物種的數(shù)據(jù)庫混一起的,同時部分數(shù)據(jù)庫更新不夠及時。

CPDB:速度快,支持非常多的數(shù)據(jù)庫,更新還算勤,幾個月更一次吧。但只能分析人類基因。

總體而言,Metascape還是最好用的,畢竟支持的物種比較多,人、鼠、斑馬魚、果蠅、線蟲、瘧原蟲、酵母、擬南芥都有。雖然支持的數(shù)據(jù)庫不算多,但簡單過一遍分析,看看有什么通路冒出來,也算是勉強夠用。

那有沒有支持的物種多、數(shù)據(jù)庫多、更新勤、速度快,甚至能夠做非模式生物、自定義通路數(shù)據(jù)庫的在線工具呢?

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

學R語言,然后琢磨一下ClusterProfiler這個神包吧。

教程 | 我想做信號通路分析,但我就是不想學編程-肽度TIMEDOO

PS:我自己喜歡用的通路數(shù)據(jù)庫是Reactome,WikiPathways,HumanCyc(雖然免費的庫比較舊),還有Hallmark gene sets。雖然ClusterProfiler只有Reactome(額外再下個包),但只要去下載對應(yīng)的數(shù)據(jù)庫,用其中的通用enrichment分析函數(shù)enricher,就可以任性分析了。

?