生物网络模体识别算法概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
hways with phylogenetic profile. Genome Informatics. 2002, 13:353-354. M..Koyuturk et al. An efficient algorithm for detecting fre quent subgraphs in biological networks. Bioinformatics, 2004, 20: i200-i207. J. Berg and M. L.ssig. Local graph alignment and motif search in biological. Networks. Proc. Natl. Acad. Sci. USA, 2004,101 (41):14689-14694. H. Hu, X. Yan et al. Mining coherent dense subgraphs across
和边着色的网络(如寻找蛋白质-基因网络的模体)。多功能网 络分析工具 PAJEK,也提及一些相关工作,不过 PAJEK 在网
massive biological networks for functional discovery. BMC Bioinformatics, 2005,21:213-221.
构件,如何有效提取各种模体对研究细胞网络中的各种动力 而可以对不同的网络进行比对。在酵母菌完整的基因组数据
学特征及其功能具有十分重要的意义。
中,Shamir 和他的同事们应用二值聚类算法来区分其分子网
2 国内外研究现状分析
络 ,然而基因间的关联程度和性质采用加权的二部图来表示。
2002 年 R.Milo 等人首次在《Science》上发表文章,提出 另一个有趣的工作,是来从 Ouzounis 工作组 ,他们首先将酵
H.Kitano. Computational systems biology. Nature,
2005, 3692:165-177.
2002,420: 206-210.
Kashtan, N. et al. Mfinder tool guide. Technical report,
R. Milo et al. Superfamilies of evolved and designed net
文献标识码:A
文章编号:1007-3973(2010)02-072-02
பைடு நூலகம்
1 引言
分析,发现这些代谢网络都有着类似的构成方式:首先形成许
在后基因组时代,生物学研究的热点由对细胞内个别基 多紧密联接的小型模块,然后这些小模块依照一种等级的方
因或蛋白质功能的局部性研究,转移到以细胞内全部的基因、 式,结成一些相对松散的大单元,而 J. Han 等则提出了一种
Bioinformatics, 2005, 21:3572-3574.
Mining. Proc. 2002 Int. Conf. on Data Mining (ICDM'02),
Japan, 2002, pp.721-724.
—— 科协论坛 · 2010 年第 2 期(下) ——
73
Bioinformatics, 2004, 20:1746-1758. Wernicke,S. A faster algorithm for detecting network motifs.
注释:
In Proceedings of the 5th Workshop on Algorithms in Bioin formatics (WABI ’05), Lecture Notes in Bioinformatics.
受到越来越多的重视。近年来人们发现,各种细胞网络中存 国科学院院刊上发表了文章,提出了一种基于统计物理学的
在的模体(motif)或模块(module)与细胞的某些功能和结构特 图的局部比对的模体识别算法。2005 年,X. Zhou 等 提出了
征等紧密相关。这些模块是构成细胞网络的某种基本单元或 基于不同大规模生物网络中的频繁稠密子图的挖掘方法,从
与 生物科技 现代农业
生物网络模体识别算法概述
□ 张 航 昝乡镇 刘志伟
(温州大学物理与电子信息工程学院 浙江·温州 325035)
摘 要: 简单介绍了生物网络中模体识别的生物学意义,并详细综述了近几年来国内外模体识别算法的成果,
最后提出了对这个领域的工作展望。
关键词:生物网络 模体 算法
中图分类号:TP39
着各种生物数据以指数方式增长,这方面的理论研究将会加
from protein interaction networks. Proteins, 2004, 54:49-57.
速人类对复杂生命现象的认识。目前,生物网络数据分析研
Feng Luo et al. Modular organization of protein interaction
Department of Molecular Cell Biology and Computer Science
works. Science, 2004, 303:1538-1542.
and Applied Mathematics, Weizman Institute of Science,
E. Ravasz et al. Hierarchical organization of modularity in
模块的划分是有重叠或者没有重叠。由于生物网络数据往往
yeast protein.protein interaction network, Bioinformatics,
包含大量噪声,如何处理噪声以及数据的不完整带来的影响,
2006, 22(18):2283-2290.
提高算法的鲁棒性,是一个关键的问题。其次所给出的算法 没有一个统一的评价标准,大多数是用实验的方法进行评定,
Kashtan,N. et al. Efficient sampling algorithm for estimating subgraph concentrations and detecting network motifs.
对于算法本身缺乏理论上的验证方法。因此可以说这方面的 研究工作刚起步,还有很多问题期待完善和发展。
了生物网络模体(network motif)的概念,通常将模体理解为生 母蛋白质作用网络转变成树结构,然后应用基于流量的聚类
物网络中分子信息传递过程的基本单元模块。这种单结构元 算法找到功能模块的近似解。Arnau 等采用分级算法反复消
在网络中反复出现,形成网络的典型连接方式。网络模体的 除“邻近捆绑”问题,然而,对于在全基因组层面上大的蛋白质
基础上组织并相互作用实现特定的功能。生物网络作为一种 方法对其中的代谢网络进行分析,从中提取相应的功能模块
描述生物分子间相互作用关系的研究方法,在揭示生物体的 单元。2004 年,George Karypis 等 提出了一种基于边增长方
生长、发育、衰老和疾病等生命系统的基本分子过程和规律中 式的频繁子图发现的 FSG 算法。同年,Johannes Berg 等 在美
72
—— 科协论坛 · 2010 年第 2 期(下) ——
与 生物科技 现代农业
一些考虑在有向和无向网络中检测和分析网络模体的算法工
Yamada et al. Extraction of modules from the metabolic pat
具,如 MFINDER 和 MAVISTO 支持检测达 8 节点的网络模 体,MFINDER 结合广泛的随机图模型来检测随机图子图的频 率。使用 MFINDER 和 MAVISTO 检测网络模体的主要缺点 是但随着子图大小的增加,子图枚举和采样 (后者只支持 MFINDER)算法较慢而且应用规模极小。为此,Wernicke 给出 了一种叫 FANMOD 的快速模体检测算法工具,FANMOD 采 用是一种叫 RAND-ESU 的枚举采样子图的新算法,检测效率 提高了 1 个数量级。而且,FANMOD 还可以在着色网络中探 测模体,能够处理映射不同实体间不同作用类型的顶点着色
Israel. 2002.
metabolic networks. Science, 2002, 297:1551-1555.
Schreiber, F. et al. a tool for the exploration of network motifs.
X. Yan and J. Han, gSpan: Graph-Based Substructure Pattern
方面支持不够。
erogeneous genome wide data. Proc. Natl. Acad. Sci. USA,
3 结论
2004, 101:2981-2986.
总之,模体识别的研究已经成为生物网络研究的中心,随
Pereira-Leal,J.B. et al. Detection of functional modules
分析已经产生有趣的结果,例如蛋白质-蛋白质作用域的预测, 作用网络,重复的分级群聚的计算也许是不可行的。文献 扩
分层网络负载和时序基因表达模式的分析。模体(motif)的概 充了基于中间态的划分算法,利用网络分块 (network partitio-
念没有明确的定义,一般理解为反映生物网络功能模块的拓 ning)算法,用来识别酵母蛋白质作用网络的 266 个功能模块,
物系统的功能, 因此对功能的研究必须分析其相互作用的网 的数据库中,选出了信号转导网络中的 64 种蛋白质。近几年
络。通过对多种分子和基因相互作用网络的研究进行生物功 日本京都大学生物信息学研究中心的科学家们致力于代谢网
能的分析, 其目标是理解生物系统是如何在单个构造模块的 络的研究,建立了著名的 KEGG 数据库,并基于系统生物学的
扑单元子系统,和随机网络相比,模体就是出现频率高而且有 展示了这些功能模块是真正致密连接的子图(即模体)。Kash-
重要意义的小的子网。
tan 等 提出子图采样算法,其缺点是非均匀采样难以适应大规
Ravasz 等人把 43 种全然不同的物种的代谢网络进行了 模模体的识别;Wernicke 给出了这个问题更多的详细分析。
络模体分析上的使用是有限制的,虽然它支持寻求所有发生 在网络中确定的图样,但在子图枚举和随机网络的统计比较
Tanay,A. et al. Revealing modularity and organization in the yeast molecular network by integrated analysis of highly het
究中新的研究成果不断出现,但是这些算法都是针对特定的
networks. Bioinformatics, 2007, 23(2):207,214.
情况进行的,网络数据的图模型要么是有权图或无权图,要么
Chen,J. and Yuan,B. Detecting functional modules in the
mRNA、蛋白质及代谢产物为研究对象的各种“组学”研究,逐 基于子图结构的模体挖掘算法。2003 年,美国系统生物学研
步把分子生物学推入系统生物学(system biology)时代 。由 究所的科学家用网络聚类方法 ,分析了酵母细胞内的蛋白质
于基因与蛋白质倾向于成组地通过网状的相互作用而影响生 相互作用网络,从 4079 种蛋白质和 6761 种蛋白质相互作用