
在轉(zhuǎn)錄組、代謝組、蛋白組等組學(xué)數(shù)據(jù)分析中,拿到差異基因/差異代謝物列表只是第一步,如何從海量數(shù)據(jù)中挖掘生物學(xué)意義,找到研究的核心方向,是每一個(gè)科研人都要攻克的難題。而KEGG富集分析,就是解開(kāi)這個(gè)難題的關(guān)鍵鑰匙,也是高分SCI論文中核心分析內(nèi)容。很多科研新手對(duì)著富集分析結(jié)果一頭霧水:氣泡圖怎么看?富集因子、P值代表什么?如何從結(jié)果里篩選關(guān)鍵通路?怎么把分析結(jié)果寫(xiě)進(jìn)論文里?
本期KEGG連載干貨,就帶大家從零開(kāi)始,超詳細(xì)解讀KEGG富集分析,吃透原理、看懂圖表、掌握解讀邏輯,輕松搞定組學(xué)數(shù)據(jù)下游分析!
一、什么是KEGG富集分析?為什么非做不可?
在做KEGG富集分析前,首先要明白它的核心意義,避免盲目分析。
簡(jiǎn)單來(lái)說(shuō),KEGG富集分析,就是把我們篩選出的差異基因/差異代謝物,映射到KEGG數(shù)據(jù)庫(kù)的各個(gè)生物學(xué)通路中,統(tǒng)計(jì)哪些通路被顯著富集,從而判斷這些差異分子主要參與哪些生命活動(dòng)、調(diào)控哪些生物學(xué)過(guò)程。
KEGG富集分析的核心作用
1. 簡(jiǎn)化海量數(shù)據(jù):從成百上千的差異分子中,鎖定關(guān)鍵生物學(xué)通路,縮小研究范圍;
2. 挖掘生物學(xué)意義:將組學(xué)數(shù)據(jù)與生命活動(dòng)關(guān)聯(lián),解釋實(shí)驗(yàn)表型背后的分子機(jī)制;
3. 支撐論文結(jié)論:是高分論文闡述分子調(diào)控機(jī)制、驗(yàn)證實(shí)驗(yàn)猜想的核心依據(jù);
4. 指引后續(xù)研究:為后續(xù)基因驗(yàn)證、通路干預(yù)、靶點(diǎn)挖掘提供明確方向。
可以說(shuō),沒(méi)有KEGG富集分析的組學(xué)數(shù)據(jù),只是一堆沒(méi)有靈魂的數(shù)字,做完富集分析,組學(xué)研究才真正有了科研價(jià)值!
二、KEGG富集分析核心原理
KEGG富集分析的核心原理是通過(guò)統(tǒng)計(jì)學(xué)檢驗(yàn),判斷一組特定的基因(例如DEGs)是否在某些KEGG通路上表現(xiàn)出顯著的富集,從而揭示這組基因可能共同參與的生物學(xué)功能和相互作用網(wǎng)絡(luò)。簡(jiǎn)單理解就是:判斷某一通路中,差異基因/代謝物的占比,是否顯著高于該通路在整個(gè)基因組/全代謝組中的占比。如果差異顯著,就說(shuō)明這個(gè)通路在我們的實(shí)驗(yàn)處理中,發(fā)生了明顯的調(diào)控變化,也就是顯著富集的通路,這也是我們后續(xù)重點(diǎn)關(guān)注的對(duì)象。
三、超詳細(xì)!KEGG富集分析結(jié)果圖表解讀
KEGG富集分析的結(jié)果,最直觀的就是氣泡圖和柱狀圖,也是論文中最常展示的圖表,吃透這兩張圖,就能輕松完成結(jié)果解讀。
富集氣泡圖
氣泡圖是KEGG富集分析的圖表,兼具美觀與信息含量,橫坐標(biāo)、縱坐標(biāo)、氣泡大小、顏色,每一個(gè)元素都有明確含義:

1. 縱坐標(biāo)(Y軸):富集到的KEGG通路名稱(chēng),一般按顯著程度排序;
2. 橫坐標(biāo)(X軸):富集因子(Rich Factor),指該通路中,差異基因/代謝物數(shù)量與該通路總基因/代謝物數(shù)量的比值,數(shù)值越大,代表富集程度越高;
3. 氣泡大小:代表對(duì)應(yīng)通路中,差異分子的數(shù)量,氣泡越大,說(shuō)明該通路里的差異基因/代謝物越多;
4. 氣泡顏色:代表富集顯著性P值/Q值,顏色越偏向紅色(暖色),P值越小,富集結(jié)果越顯著;顏色越偏向藍(lán)色(冷色),P值越大,富集結(jié)果越不顯著。
? 解讀技巧:優(yōu)先關(guān)注X軸數(shù)值大、氣泡大、顏色紅的通路,這類(lèi)通路就是實(shí)驗(yàn)處理下,最核心的差異調(diào)控通路。
(二)富集柱狀圖
柱狀圖更適合展示Top 10/Top 20顯著富集通路,排版簡(jiǎn)潔,信息一目了然:

1. 縱坐標(biāo):KEGG通路名稱(chēng);
2. 橫坐標(biāo):通路中差異分子的數(shù)量;
3. 柱子顏色:同樣代表富集顯著性P值,顏色越紅,富集越顯著。
? 解讀技巧:直接看柱子長(zhǎng)度+顏色,快速鎖定差異分子數(shù)量多、顯著性高的核心通路。
四、關(guān)鍵參數(shù)解讀:避開(kāi)解讀誤區(qū)
除了圖表,這3個(gè)核心參數(shù),是判斷富集結(jié)果是否可靠、是否有研究?jī)r(jià)值的關(guān)鍵,新手一定要牢記:
1. P值(P-value)
統(tǒng)計(jì)學(xué)顯著性指標(biāo),P值越小,代表通路富集結(jié)果越可靠,一般篩選標(biāo)準(zhǔn)為P<0.05,數(shù)值越小,顯著性越強(qiáng)。
部分分析結(jié)果會(huì)展示校正后的Q值/FDR值,用于排除假陽(yáng)性,優(yōu)先參考Q值,結(jié)果更嚴(yán)謹(jǐn)。
2. 富集因子(Rich Factor)
反映通路的富集程度,數(shù)值越大,差異分子在該通路中的占比越高,但不能只看富集因子,必須結(jié)合P值綜合判斷。
3. 富集基因數(shù)/代謝物數(shù)
該通路中包含的差異分子數(shù)量,數(shù)量越多,說(shuō)明該通路受實(shí)驗(yàn)處理的影響越大,研究?jī)r(jià)值相對(duì)更高。
?? 避坑提醒:不要只單一看某一個(gè)參數(shù)!比如某通路富集因子很高,但P值極大,說(shuō)明結(jié)果不可靠;只有富集因子高+P值顯著+差異分子數(shù)量多,三者同時(shí)滿足,才是真正的核心通路。
五、高分論文:KEGG富集結(jié)果解讀思路
拿到分析結(jié)果后,如何梳理邏輯,把解讀內(nèi)容寫(xiě)進(jìn)論文里?分享通用高分解讀邏輯,直接套用:
1. 整體概述:先總述差異基因/代謝物主要富集到哪些大類(lèi)通路(比如代謝通路、信號(hào)通路、疾病相關(guān)通路等);
2. 重點(diǎn)突出:挑選Top5-10條顯著的通路,詳細(xì)說(shuō)明通路名稱(chēng)、富集程度、參與的生物學(xué)過(guò)程;
3. 關(guān)聯(lián)實(shí)驗(yàn)表型:將富集通路與自己的實(shí)驗(yàn)表型結(jié)合,解釋“為什么會(huì)出現(xiàn)這樣的通路富集",闡述分子機(jī)制;
4. 研究意義升華:說(shuō)明這些核心通路,在本研究中的作用,為后續(xù)研究提供哪些理論依據(jù)。
示例(論文寫(xiě)作模板):
本次KEGG富集分析結(jié)果顯示,差異基因主要顯著富集于糖酵解通路、PI3K-Akt信號(hào)通路、細(xì)胞凋亡通路等(P<0.05)。其中,PI3K-Akt信號(hào)通路富集因子最高,差異基因數(shù)量最多,提示該通路可能是調(diào)控XX疾病發(fā)生發(fā)展的核心通路,參與細(xì)胞增殖與凋亡的生物學(xué)過(guò)程,與本研究中細(xì)胞增殖活性變化的表型高度吻合。
六、新手常見(jiàn)問(wèn)題&解決方案
1. 問(wèn)題1:富集結(jié)果無(wú)顯著通路,P值全都很大?
解決方案:檢查差異分子篩選閾值是否過(guò)嚴(yán)、物種選擇是否正確、輸入的基因ID格式是否匹配,適當(dāng)放寬篩選閾值重新分析。
2. 問(wèn)題2:富集通路太多,不知道該選哪些?
解決方案:優(yōu)先選擇與研究方向高度相關(guān)、P值顯著、富集因子高的通路,聚焦3-5條核心通路深入分析即可,無(wú)需全部羅列。
3. 問(wèn)題3:通路名稱(chēng)太專(zhuān)業(yè),看不懂通路功能?
解決方案:直接在KEGG搜索通路名稱(chēng),查看通路詳情、分子調(diào)控網(wǎng)絡(luò),也可結(jié)合文獻(xiàn),了解該通路的研究進(jìn)展。
大家在做KEGG富集分析時(shí),還遇到過(guò)哪些解讀難題?歡迎在評(píng)論區(qū)留言,一起交流解決!
