用RWR模型从PPI网络挖掘疾病基因
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用RWR模型从PPI网络挖掘疾病基因
研究背景:
高通量芯片数据与蛋白质互作网络整合分析已经是生物信息常见的分析手段。
如简单的从PPI背景网络提取目标基因连接的子网络,或者结合表达量计算基因表达上的相关性等。
通过蛋白互作网络,我们可以研究目标基因可能参与的生物学功能;网络参数统计,如节点度、结束、最短路径等,以及模块划分,是得我们能够分析网络中的重要基因,这些基因既有可能对疾病的发生发展有着重要的影响。
但是这些方法存在一个不足之处,我们只是从现有的信息分析,没有使用已有的疾病相关的知识,而这些先验信息可以帮助我们优化疾病相关基因的挖掘。
随机游走模型(random walk)最初被应用于图像分割,后来衍生到生物学网络分析,可以用于计算亮点之间的proximity。
该模型的核心思想是从网络中某一节点(seed)出发(starting node), 沿着网络边向邻接节点游走,这种游走是随机的。
从seed节点游走到某一节点的概率称为该节点与seed节点的亲和系数(affinity score), 这个值越高表示该节点与seed节点的关系越紧密。
当然seed可以是一个节点,也可以是一群节点。
重启随机游走模型(random walk withrestart,RWR)是即可向neigbour nodes 游走,也可跳回starting node。
这里跳回starting节点的概率叫做restartprobablity,r。
所以RWR模型需要三个输入,network,seed,restart probablity.
人类孟德尔遗传病数据库(Online MendelianInheritance in Man,OMIM)提供了综合、权威的关于疾病-基因的关系的数据库。
我们可以根据这里提供的疾病相关的基因信息,结合芯片表达数据和蛋白质互作网络,使用RWR模型挖掘与疾病基因关系最为紧密的基因,而这些基因可能成为新的疾病相关靶点。
这样子通过结合先验知识得到的新的疾病基因更有研究价值。
分析流程:
1. 差异表达分析
原始芯片数据用affy包做背景校正和标准化。
再根据芯片注释信息,将探针水平表达量取平均得到基因水平的表达量。
接下来用R package limma 做差异表达分析,p-value用BH方法校正,差异表达的阈值为adj.P.Val<0.05 and="">0.05>≥1.
2. OMIM数据库搜索CRC gene
从OMIM数据库搜索CRCgenes, 并将这些genes作为RWR分析的seed。
3. PPI 网络构建
从STRING数据下载左右蛋白的互作网络,并从中提取只有CRC gene 和 DGGs的子网络,seed_DEGs.ppi.
4. RWR 分析
用R package dnet 的函数dRWR 做RWR分析,seed为CRC gene,网络为seed_DEGs.ppi,restart probablity 等于0.9. Drwr函数会反回一个只有一列的数值矩阵,这些数值表达是了每个基因与seed 之间的affinity score。
我们选取affinity score 排名前50的节点做后续功能分析和靶药预测。
结果展示:
Table 1, coloreactal seed genes from OMIM database Gene/Locus EntrezID NAME
PLA2G2A 5320 phospholipase A2, group IIA (platelets, synovial fluid)
NRAS 4893 neuroblastoma RAS viral (v-ras) oncogene homolog ODC1 4953 ornithine decarboxylase 1
CTNNB1 1499 catenin (cadherin-associated protein), beta 1, 88kDa
PIK3CA 5290 phosphatidylinositol-4,5-bisphosphate 3-kinase, catalytic subunit alpha
FGFR3 2261 fibroblast growth factor receptor 3
TLR2 7097 toll-like receptor 2
APC 324 adenomatous polyposis coli
MCC 4163 mutated in colorectal cancers
PTPN12 5782 protein tyrosine phosphatase, non-receptor type 12 PDGFRL 5157 platelet-derived growth factor receptor-like
RAD54B 25788 RAD54 homolog B (S. cerevisiae)
TLR4 7099 toll-like receptor 4
PTPRJ 5795 protein tyrosine phosphatase, receptor type, J CCND1 595 cyclin D1
MLH3 27030 mutL homolog 3
AKT1 207 v-akt murine thymoma viral oncogene homolog 1 BUB1B 701 BUB1 mitotic checkpoint serine/threonine kinase B TP53 7157 tumor protein p53
FLCN 201163 folliculin
AXIN2 8313 axin 2
DCC 1630 deleted in colorectal carcinoma
BAX 581 BCL2-associated X protein
AURKA 6790 aurora kinase A
EP300 2033 E1A binding protein p300
Figure2.PPI of top50 genes
Figure3. 富集分析结果。