教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO
教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO文|吳思涵

“我想做信號(hào)通路分析,但我就是不想學(xué)編程。”
“我又不是生信狗,學(xué)代碼會(huì)死?!?br> “你們這些做生信的,整天把數(shù)據(jù)分析搞得神神秘秘,不就是怕被人搶飯碗而已嘛?!?br> “這都沒分析出我想要的結(jié)果,不靠譜?!?br> “你們做生信的不都是寫好pipeline的嗎?怎么那么久還沒分析好?”
……

哦……

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO
教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

科研日常問題:我有一張基因/蛋白列表,想知道富集在什么通路上,如何做?

這篇文章就教大家,如何一句代碼都不用敲,通過簡(jiǎn)單的復(fù)制粘貼還有點(diǎn)兩下鼠標(biāo),就能實(shí)現(xiàn)通路富集的分析。

1. Metascape

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

Metascape的主界面長(zhǎng)這樣,操作起來非常簡(jiǎn)單,只需要按照提示,一步一步進(jìn)行操作即可。數(shù)據(jù)庫(kù)更新得很勤,不怕落伍。

首先在Step 1那里,粘貼你的基因列表。然后Step 2會(huì)問你是什么物種。Step 3點(diǎn)Express Analysis。然后就自動(dòng)出結(jié)果了,輸出的圖片顏值很高,還能下載原始的excel表回去自己作圖,還能自動(dòng)導(dǎo)出成漂釀的成套的ppt結(jié)果匯報(bào)……是不是so easy?。?!

氮素!?。?/p>

Metascape有一個(gè)不是很討喜的地方,就是默認(rèn)的Express Analysis,總是喜歡把各個(gè)數(shù)據(jù)庫(kù)的信號(hào)通路混一起分析,這樣很容易出現(xiàn),某些非常general的數(shù)據(jù)庫(kù),就容易搶戲,出現(xiàn)各種冗余。比如說,下面這個(gè)結(jié)果,就是默認(rèn)把Reactome、CORUM和GO數(shù)據(jù)庫(kù)全部給攪在一起展示了。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

當(dāng)然,這并不是不可破解的問題。只要在Step 3那里,點(diǎn)擊Custom Analysis,然后在Enrichment的選項(xiàng)卡里,勾選你想要的數(shù)據(jù)庫(kù)就好了。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

目前,Metascape支持不少流行的數(shù)據(jù)庫(kù),比如Hallmark Gene Sets、Reactome等,還有我最不愛用的GO和KEGG。至于其他參數(shù)是啥意思,不懂話就佛系對(duì)待吧,別改了。。。

2. Enrichr

如果嫌Metascape的數(shù)據(jù)庫(kù)少,那就試試數(shù)據(jù)庫(kù)多到上天的Enrichr吧。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

Enrichr的界面更加清爽了,只需要你把基因/蛋白列表貼進(jìn)去然后點(diǎn)submit就完事了。

我第一次用Enrichr就被震驚了!

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO
教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO
教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

這特么也太多數(shù)據(jù)庫(kù)了吧?。?!

以上只列出了其中三頁(yè)數(shù)據(jù)庫(kù),即轉(zhuǎn)錄調(diào)控、信號(hào)通路、基因本體,后面還有疾病/藥物,細(xì)胞類型,還有一些雜七雜八的,甚至連過期數(shù)據(jù)庫(kù)都有。而且數(shù)據(jù)同樣支持導(dǎo)出。

氮素?。。?/p>

如果你用了就知道,Enrichr根本就沒問你,貼的基因到底是個(gè)啥物種。因此,這個(gè)程序有個(gè)很坑的地方,就是把所有物種的數(shù)據(jù)庫(kù)全部混一起分析了……比如下面這個(gè)WikiPathways分析,就把人和小鼠的結(jié)果一起展示了……(并且未知這種混合,是否會(huì)影響通路富集分析的結(jié)果)

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

此外,由于Enrichr的數(shù)據(jù)庫(kù)太多,所以更新不是很及時(shí)。比如上面展示的WikiPathways,還是2016年的,而這兩年WikiPathways的更新頻率幾乎是月更。

3. ConsensusPathDB

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

CPDB是德國(guó)人開發(fā)的,界面長(zhǎng)這樣,不算很直觀。但數(shù)據(jù)庫(kù)量一樣很大,整合了32個(gè)數(shù)據(jù)庫(kù)。想做信號(hào)通路富集分析,點(diǎn)左邊的over-representation analysis,貼上列表,選擇數(shù)據(jù)類型(到底是gene id,還是symbol,還是別的什么),然后提交就好了。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

下一步,就是選要用哪些數(shù)據(jù)庫(kù)來分析。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

最好還是一次只選一個(gè),因?yàn)椴恢涝嫉某绦蛟O(shè)計(jì)是如何的,到底是各個(gè)數(shù)據(jù)庫(kù)獨(dú)立分析,還是跟metascape默認(rèn)一樣,全部混一起。整體而言,分析速度極快,使用起來也很方便。

氮素?。?!

CPDB只支持分析人類基因……

4. 總結(jié)

以上這些工具的分析結(jié)果,在調(diào)教好參數(shù)的情況下(比如p值 cut-off,數(shù)據(jù)庫(kù)類型),各個(gè)網(wǎng)站出來的結(jié)果沒太大區(qū)別,所以算法上應(yīng)該都是靠譜的。我拿同一套東西跑ClusterProfiler,結(jié)果也是沒差多少。

這幾個(gè)數(shù)據(jù)庫(kù)都有什么優(yōu)缺點(diǎn)呢?

Metascape:支持物種多,數(shù)據(jù)庫(kù)更新非常及時(shí),且導(dǎo)出的數(shù)據(jù)顏值高,甚至可以直接發(fā)表。但是支持?jǐn)?shù)據(jù)庫(kù)較少,而且在國(guó)內(nèi)打開較慢,且運(yùn)行速度有時(shí)候較慢(畢竟分析完后還要生成pdf、excel、ppt還順便打成壓縮包那么一大堆東西)。

Enrichr:數(shù)據(jù)庫(kù)多到上天,分析速度還行。但是不支持選擇特定物種,默認(rèn)就是多物種的數(shù)據(jù)庫(kù)混一起的,同時(shí)部分?jǐn)?shù)據(jù)庫(kù)更新不夠及時(shí)。

CPDB:速度快,支持非常多的數(shù)據(jù)庫(kù),更新還算勤,幾個(gè)月更一次吧。但只能分析人類基因。

總體而言,Metascape還是最好用的,畢竟支持的物種比較多,人、鼠、斑馬魚、果蠅、線蟲、瘧原蟲、酵母、擬南芥都有。雖然支持的數(shù)據(jù)庫(kù)不算多,但簡(jiǎn)單過一遍分析,看看有什么通路冒出來,也算是勉強(qiáng)夠用。

那有沒有支持的物種多、數(shù)據(jù)庫(kù)多、更新勤、速度快,甚至能夠做非模式生物、自定義通路數(shù)據(jù)庫(kù)的在線工具呢?

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

學(xué)R語(yǔ)言,然后琢磨一下ClusterProfiler這個(gè)神包吧。

教程 | 我想做信號(hào)通路分析,但我就是不想學(xué)編程-肽度TIMEDOO

PS:我自己喜歡用的通路數(shù)據(jù)庫(kù)是Reactome,WikiPathways,HumanCyc(雖然免費(fèi)的庫(kù)比較舊),還有Hallmark gene sets。雖然ClusterProfiler只有Reactome(額外再下個(gè)包),但只要去下載對(duì)應(yīng)的數(shù)據(jù)庫(kù),用其中的通用enrichment分析函數(shù)enricher,就可以任性分析了。

?