基于时序互信息构建基因调控网络

合集下载

基因调控网络的构建与应用

基因调控网络的构建与应用

基因调控网络的构建与应用随着科技的发展,人类对生物学的研究也越来越深入。

其中,基因调控网络是一个重要的领域。

基因调控网络是指由多个基因、蛋白质和信号分子构成的调控互动网络,这些成分之间相互作用,从而控制生物体内基因的表达和细胞的命运。

本文将从基因调控网络的构建和应用两个方面来探讨其研究进展及意义。

一、基因调控网络的构建基因调控网络的构建可以通过微阵列技术、RNA测序技术、蛋白质组学技术、质谱分析技术等手段进行。

其中,RNA测序技术和蛋白质组学技术是目前应用最为广泛的方法。

RNA测序技术是将RNA样品进行高通量测序,并通过对比分析、统计分析和生物信息学分析,挖掘出已知和未知的基因和调控元件。

RNA测序数据产生的分析工具和算法不断更新,如Cufflins、HTSeq、DESeq、edgeR、DAVID等,都为RNA测序数据的解读和应用提供了支持。

同时,蛋白质组学技术也被广泛应用于基因调控网络的构建。

例如,利用质谱分析的技术,可以鉴定出基因调控过程中产生的代谢产物和信号分子等。

基于蛋白质组学技术的数据挖掘,可以建立蛋白质-蛋白质互作网络和反应通路,并按照功能模块进行分类和分析。

这些工具和分析方法使基因调控网络的建立更加全面和科学。

基因调控网络的建立不仅仅是简单的基因-蛋白质-信号分子的组合,更需要结合现实情况和生物环境因素的影响。

因此,研究人员也可以根据不同生物体系和实验条件进行基因调控网络的构建。

比如,可以在生物体内针对某种疾病组织进行组织芯片分析,推测出特定基因在疾病进程中的调控机制,进而构建出相应的基因调控网络。

这些网络可为研究疾病的发病机制提供重要的依据。

二、基因调控网络的应用基因调控网络的建立可以为生物学研究和生物医药领域的应用提供了巨大的帮助。

主要应用包括以下三个方面:1、基因调控网络在生物学研究中的应用基因调控网络为进一步深入研究生命现象及生物体的生长与发育提供了科学的依据。

研究人员可以利用基因调控网络的构建,分析和预测基因发挥特定功能的机制,推测基因调控过程中的关键因素及其作用的分子机制。

基因调控网络的构建和应用

基因调控网络的构建和应用

基因调控网络的构建和应用当我们提到基因,很容易想到DNA、遗传、发育等词语,但实际上基因是一个非常复杂的概念。

在我们的体内,基因与基因之间形成了庞大的网络,不止掌握着我们身体的发育、生长,还可能与我们遇到的疾病密切相关。

如何构建基因调控网络,并应用于研究与医疗领域,是当前的研究热点之一。

一、基因调控网络的构建方法1.基因表达谱在基因表达谱研究中,我们可以通过对基因进行芯片分析来研究基因的表达。

芯片分析的工作流程为:首先收集细胞样品,然后提取RNA,将RNA转录为cDNA,最后用DNA微阵列芯片测试每个基因的表皮水平。

通过这种方式,我们可以了解特定条件(例如疾病、药物等)对基因表达的影响,从而帮助我们分析基因组中的新内容和调控机制,进一步发现和治疗疾病。

基因表达谱研究从单基因层面寻找基因与疾病的关联,并挖掘不同基因之间的相互作用,尤其是在基因网络中。

2.转录调控因子转录调控因子是一种调控蛋白质,它可以连接DNA的启动区域,从而对相应的基因进行调控。

转录调控因子有两种类型,一种是调节性转录因子(TF),另一种是转录因子(TTF)。

调节性转录因子通过改变转录效率来调节基因表达,而转录因子直接激活或抑制基因表达。

通过对转录调控因子的研究,我们可以更好地理解基因调控网络的构成和机制,并为相关疾病的治疗提供新思路和策略。

3.串联互作法串联互作法是一种研究转录因子、靶基因和共同翻译调控控制机制的方法。

该方法可用于发现复杂的转录调控因子,尤其是在基因网络中。

同时,串联互作法还可以找到新的基因关系和功能,以及基因网络中潜在的关键因子。

在基因调控网络的研究中,串联互作法尤其重要,可以帮助研究人员了解基因网络的结构和特点,以及不同基因之间的相互作用。

二、基因调控网络在医学和生命科学中的应用1.基因网络调控和转化医学基因调控网络不仅仅是一个研究领域,同时也是用于发展转化医学和新兴医学的关键之一。

在目前的医疗领域中,基因调控网络已经被广泛应用于癌症治疗,特别是外胚层信号调节途径及其相关的基因进展。

基因调控网络的建模和分析

基因调控网络的建模和分析

基因调控网络的建模和分析随着基因组学技术的不断发展,研究基因调控网络的方法也在不断地改进和完善。

基因调控网络是指一组基因之间通过各种调节因子相互作用形成的复杂网络系统。

这个网络系统在不同的状态下会发生不同的调节作用,从而影响到生物体的各种生理和代谢活动。

建立基因调控网络的模型,对于研究生物体各种生理现象和发病机制具有重要的意义。

基因调控网络的建模方法主要有三种:基于物理模型的建模方法、基于统计学方法的建模方法和基于机器学习方法的建模方法。

基于物理模型的建模方法是基于酶促反应的原理,通过建立动态的差分方程或微分方程模型来描述基因调控网络。

这种建模方法首先要收集丰富的实验数据,包括基因表达、蛋白质-DNA结合位点、转录因子的浓度分布等信息。

然后使用数学模型通过模拟数学模型对于这些数据进行分析预测。

这种方法适用于在简单的信号通路中建模,然而并不适合在更为复杂的基因调控网络中使用。

基于统计学方法的建模方法是基于大量实验数据的分析,通过统计分析方法和数据挖掘算法提取基因调控网络的结构和调节因子。

这种建模方法适用于小规模的基因调控网络,然而并不适合大规模的基因调控网络。

除了统计学方法,还有贝叶斯网络等方法也适用于基因调控网络的建模。

基于机器学习方法的建模方法主要包括监督学习和非监督学习。

监督学习方法采用已经标注的训练集数据,通过各种机器学习算法预测新的数据分类或回归问题。

非监督学习方法不需要标注的训练数据,通过聚类、降维等技术来发现基因调控网络的结构和特点。

这种建模方法适用于中等和大规模的基因调控网络,并且可以预测和发现新的调节因子,用于探究大规模DNA和RNA分析对于发病和创新药物发现的重要性。

基因调控网络的分析方法主要包括拓扑分析、动力学分析和稳定性分析。

拓扑分析主要是研究基因调控网络的结构和连接方式,并提取其中的关键节点。

动力学分析主要研究基因调控网络的时序演变和随时间变化的状态。

稳定性分析主要研究网络的稳态和稳定性,即网络在长时间连续运行后会达到一定的平衡状态,这种平衡状态可以是稳定的也可以是不稳定的。

基因调控网络的构建与分析

基因调控网络的构建与分析

基因调控网络的构建与分析基因调控网络,即基因间相互作用和调控关系的网络,是研究基因调控机制和生物学过程的重要工具。

本文将介绍基因调控网络的构建和分析方法,并探讨其在生物学研究中的应用。

一、基因调控网络的构建方法基因调控网络的构建方法主要包括基因表达数据的获取、细胞系的选择、基因调控关系的推断等步骤。

1. 基因表达数据的获取基因表达数据可以通过高通量测序技术获取,如RNA-seq和microarray。

通过这些技术,可以得到不同条件下的基因表达水平信息,为构建基因调控网络提供数据基础。

2. 细胞系的选择构建基因调控网络需要选择适当的细胞系,以确保所得到的基因调控关系与研究对象相关。

常用的细胞系包括人类细胞系、小鼠细胞系等。

3. 基因调控关系的推断通过分析基因表达数据,可以推断基因间的调控关系。

常用的推断方法包括相关分析、差异表达分析、共表达网络分析等。

二、基因调控网络的分析方法构建好基因调控网络后,接下来需要对其进行分析,以进一步理解基因间的调控机制和生物学功能。

常用的基因调控网络分析方法包括网络可视化、模块识别和功能注释等。

1. 网络可视化网络可视化可以将复杂的基因调控关系以图形化的方式展示出来,便于观察和理解。

常用的网络可视化工具包括Cytoscape、Gephi等。

2. 模块识别基因调控网络中存在一些密集连接的子网络,称为模块。

通过模块识别算法,可以找到这些模块,以及模块与生物学功能的关联。

常用的模块识别算法包括MCL、Louvain等。

3. 功能注释对基因调控网络中的基因进行功能注释,可以帮助理解调控机制和生物学意义。

功能注释可以利用基因本体论(Gene Ontology)和关键路径分析等方法进行。

三、基因调控网络的应用基因调控网络在生物学研究中有着广泛的应用。

以下列举几个典型的例子:1. 鉴定关键基因通过分析基因调控网络,可以识别出在生物学过程中起关键作用的基因。

这些关键基因对于生物学功能的理解和疾病研究具有重要意义。

基因表达调控网络的构建与分析

基因表达调控网络的构建与分析

基因表达调控网络的构建与分析基因调控网络是生物体内基因表达的重要调控机制之一。

通过构建和分析基因表达调控网络,可以帮助我们深入了解基因调控的复杂性和生物学过程的机制。

本文将介绍基因表达调控网络的构建方法和分析技术,并对其在生物学研究中的应用进行探讨。

一、基因表达调控网络的构建方法基因表达调控网络是由转录因子与其靶基因之间的相互作用关系所组成的。

构建基因调控网络的一种常用方法是基于基因共表达分析,即通过多组学数据分析揭示基因之间的共同表达模式。

在这种方法中,我们使用大规模的转录组数据对基因进行聚类或相关性分析,从而找出一组具有相似表达模式的基因。

然后,我们可以进一步分析这些基因之间的转录因子-靶基因关系,从而构建基因调控网络。

另一种常用的构建方法是基于转录因子结合位点的富集分析。

转录因子结合位点是转录因子与基因组DNA结合的特定位置,其富集程度可以反映转录因子对于不同基因的调控程度。

通过对转录因子结合位点进行高通量测序或芯片分析,我们可以获得转录因子在基因组中的绑定模式。

进一步,通过对转录因子结合位点的富集分析,我们可以鉴定出一组与指定转录因子相关的靶基因,并以此构建基因调控网络。

二、基因表达调控网络的分析技术基因表达调控网络的分析涉及到复杂的网络拓扑结构和生物学信息学方法。

以下介绍几种常用的基因调控网络分析技术。

1. 节点中心性分析节点中心性是基因调控网络中节点的重要性指标,可以通过度中心性、介数中心性、接近度中心性等指标来衡量。

这些指标可以帮助我们识别网络中的关键节点,从而揭示基因调控网络的重要调控因子。

2. 动态建模与预测基因表达调控网络通常具有时序动态特征。

基于时间序列数据的动态建模方法,如动态贝叶斯网络、动态布尔网络等,可以帮助我们研究基因调控网络的转变和预测基因表达模式的动态变化。

3. 功能富集分析功能富集分析是基于注释数据库的方法,通过对基因集合中的基因进行富集分析,可以识别出与特定功能或通路相关的基因。

基因表达调控网络构建方法总结

基因表达调控网络构建方法总结

基因表达调控网络构建方法总结基因表达调控网络是细胞中基因表达的重要调控机制。

通过构建基因表达调控网络,可以深入理解基因调控的复杂性,并揭示基因调控网络的规律性。

本文将总结几种常用的基因表达调控网络构建方法,包括基于转录因子结合位点、基于共表达和基于调控网络拓扑结构的方法。

一、基于转录因子结合位点的方法基于转录因子结合位点的方法是通过分析转录因子与DNA结合的信息,构建基因表达调控网络。

这种方法通过计算基因上的转录因子结合位点并进行预测,进而找到转录因子与靶基因之间的关系。

首先,需要获得转录因子的结合位点信息。

可以利用实验室中常用的染色质免疫沉淀测序(ChIP-seq)技术来获得转录因子与DNA结合的信息。

ChIP-seq会将靶转录因子与DNA结合后,利用抗体进行富集,并通过高通量测序技术进行测序,最终得到转录因子结合位点的数据。

接着,需要对转录因子结合位点进行分析和预测。

可以使用各种生物信息学工具和算法,如Motif分析、转录因子结合位点寻找算法等。

Motif分析能够识别和描述转录因子结合位点的共同特征序列,而转录因子结合位点寻找算法则可以从大规模的转录因子结合位点数据中找到目标转录因子的结合位点。

最后,根据预测出的转录因子结合位点,可以构建基因表达调控网络。

通过将转录因子与靶基因连接起来,形成一个转录因子-靶基因网络,从而揭示基因表达调控的关系。

二、基于共表达的方法基于共表达的方法是通过分析基因表达谱的相似性来构建基因表达调控网络。

这种方法假设在相似生物条件下,具有相似功能的基因会在基因表达级别上具有高度的相似性。

首先,需要获取基因表达谱数据。

可以使用基因芯片或高通量测序技术来获得大规模的基因表达数据。

这些数据包含了不同细胞类型或不同处理条件下基因的表达水平信息。

接着,需要对基因表达数据进行预处理和分析。

预处理包括数据标准化、批次效应校正等步骤,以消除不同实验之间的无关因素。

分析可以使用各种统计学方法和机器学习算法,如聚类分析、主成分分析等。

生物信息学中的基因调控网络分析

生物信息学中的基因调控网络分析

生物信息学中的基因调控网络分析随着高通量测序技术的不断发展,越来越多的基因组学数据被产生和积累。

在这些海量的基因数据中,含有关于基因表达调控的信息。

基因调控是指细胞内的调节机制,控制基因的表达量和表达时机。

这一调控网络是由许多基因和蛋白质相互作用形成的,被称为基因调控网络。

对基因调控网络的分析和理解能够帮助我们深入了解其在细胞生物学和生物信息学中的作用,从而为药物研发、疾病治疗等研究提供理论基础和参考。

基于基因调控网络的分析和挖掘可以用于许多方面。

例如,基因调控网络的分析可以提供关于调控因素的信息,这有助于分析疾病的发病机理及其治疗策略。

此外,基因调控网络的分析还可以帮助预测基因的功能、识别基因表达的生物学过程、评估基因表达的变化等。

基因调控网络分析的常用方法包括基于文献的手工构建和数据驱动的自动构建。

手工构建是指根据文献资料、生物学知识和经验构建基因调控网络。

这种方法虽然精确度较高,但是需要大量的信息搜集和专业知识,无法实现大规模数据的分析。

自动构建是指利用机器学习、统计推断等方法,从基因组学数据中识别和分析基因调控网络。

这种方法可重复性较高,能够承接大量数据处理工作,但是精确度有待提高。

随着人工智能技术的发展,基于深度学习的基因调控网络分析方法也逐渐被开发。

这种方法将基因调控网络看作一个图形结构,使用图卷积神经网络(graph convolutional network)等方法对其进行学习和预测。

深度学习方法有一定的优点,能够处理大规模的基因组学数据,并且可以利用未知的生物学知识对基因调控网络进行预测。

但是,这种方法的模型训练和解释性都需要更进一步研究和提高。

基因调控网络分析的一般流程包括网络构建、网络可视化和功能注释等步骤。

构建基因调控网络需要整合多种数据,如基因表达、转录因子、序列及其亚群、染色体置换和蛋白质-蛋白质相互作用等。

目前已有多种软件和工具可用于构建和分析基因调控网络,其中常用的有Cytoscape、Genome Wide Association Study (GWAS)和Ingenuity Pathway Analysis(IPA)等。

基于时序互信息构建基因调控网络

基于时序互信息构建基因调控网络

c lu ae u a n o ai nwi o ain em arx,S h tt eg n x r sin d t r e tids rt ac ltsm t lif r to t c v ra c ti u m h O ta h e ee p e so aaaek p n icee,wh c s ih i
(. 1 天津大学理学院 ,天津 3 0 7 ;2 00 2 .天津大学计算机科学 与技术学院 ,天津 3 0 7 ) 00 2 摘 要 :为构建基 因调控 网络 , 出了一个基 于时序 互信 息学 习动态贝叶斯 网络 结构的学 习算法. 计算基 因间的时 提 在
序互信息 时, 该算法考虑 了时间序列微 阵列数 据的时间特性 , 并利 用协 方差矩 阵计算互信 息, 没有将基 因表达数据 离散 化, 与基 因表达数据 的连 续性相符 合. 酵母 菌周期细胞的 实验数据 上测试该算法 , 在 灵敏 度为 6 .%; 算法构 建的基 6 7 该
因调 控 网络 与 KE GG 数 据 库 中的 网络相 比较 ,发 现 了 C c 8与 C c 0C k d2 d2 、h l与 R d a9的调 控 关 系 , 些 调 控 关 系在 相 这 应 的 生物 学 实验 中得 到 验证 .
关键词 :基因调控 网络 ;动态 贝叶斯 网络 ;时序互信息
第4卷 3
第7 期
天Hale Waihona Puke 津大学学

、0. 3 No 7 ,1 4 .
J . u1201 0
21 0 0年 7月
J u n l f ini ies y o ra a j Unv ri oT n t
基 于 时序 互信 息构 建基 因调 控 网络
缑葵香 ,宫秀军 ,汤 莉 一

基因调控网络的建立与调整方法

基因调控网络的建立与调整方法

基因调控网络的建立与调整方法基因调控网络是细胞内基因表达调控的重要组成部分,它决定了生物体的生长发育、繁殖、代谢、免疫等各种生理过程。

基因调控网络是一个复杂的系统,包括多种生物分子参与的调控元件和调控因子,如转录因子、RNA催化剂、组蛋白修饰酶等。

建立和调节基因调控网络是现代生命科学的核心问题之一,可以帮助我们深入了解基因表达规律,揭示基因的功能和相互作用,并且有助于研发新药物和生物工程技术。

本文将分别介绍基因调控网络的建立和调整方法。

一、基因调控网络的建立方法1.基于实验技术的建立基因调控网络是通过实验技术来建立的,包括基因芯片、高通量测序、质谱等。

基因芯片技术通过用DNA探针检测表达谱的变化来研究基因调控网络,可以同时检测成千上万个基因,大大提高了数据的精度和效率。

高通量测序技术则可以直接测定RNA序列,帮助我们了解基因的功能和相互作用。

质谱技术则可以检测细胞内蛋白质的修饰和互作,为基因调控网络的研究提供了重要信息。

2.基于生物信息学的建立基因调控网络也可以通过生物信息学方法建立,包括基因组学、转录组学、蛋白质组学等。

基因组学可以帮助我们了解基因序列和结构,从而预测基因功能和相互作用关系。

转录组学可以测定基因表达谱,分析基因调控网络的变化和调节机制。

蛋白质组学则可以了解细胞内蛋白质的结构和相互作用,揭示基因调控网络的调节机制。

二、基因调控网络的调整方法1.基于遗传学的调整遗传学方法包括突变、基因重组、基因敲除等,可以用来调整基因调控网络。

突变是指基因突变导致某些基因表达量发生变化,从而改变基因调控网络的结构和功能。

基因重组则是将某些基因拼接起来,形成新的组合基因,从而增强或削弱某些基因的表达或互作关系。

基因敲除则是将某些基因的表达彻底沉默,通过观察其功能的变化来分析基因调控网络的调节机制。

2.基于生化学的调整生化学方法包括分子克隆、基因调节子植入、RNA干扰等,也可以用来调整基因调控网络。

分子克隆是将某些基因拷贝到载体中,并在体内或体外表达,从而调整其表达量和功能,揭示基因调控网络的调节机制。

基于深度学习构建时序基因调控网络

基于深度学习构建时序基因调控网络

㊀第33卷第4期2020年11月㊀青岛大学学报(自然科学版)J O U R N A LO F Q I N G D A OU N I V E R S I T Y (N a t u r a l S c i e n c eE d i t i o n)V o l .33N o .4N o v .2020㊀文章编号:10061037(2020)04002407d o i :10.3969/j.i s s n .10061037.2020.11.04基于深度学习构建时序基因调控网络徐瑞杰,张㊀淋,陈㊀宇(青岛大学数据科学与软件工程学院,青岛266071)摘要:基因调控是生命体中重要的运行机制,运用深度学习来预测p 53相关基因的调控关系对了解基因调控具有重要意义.提出了一种基于卷积神经网络与全连接网络相结合的模型.在A r r a y E x p r e s s 获得了电离辐射A f f y m e t r i x 数据集(E GM E X P G549)上,可通过微阵列表达水平预测基因间调控关系,为保留的验证集提供92 07%分类准确率,并且该模型的k a p pa 系数达到0 84,A U C 验证平均精度达到94 25%,从而构建了带有时延性的p 53相关的基因调控网络.研究结果表明,该模型在筛选出已经论证调控关系的基因对上具有较好的验证关系,构建出可视化的基因调控网络.在筛选出未知调控关系的基因对上,具有较好的预测关系与研究价值.关键词:基因调控;高通量数据;深度学习;时间延迟性中图分类号:Q 812㊀㊀㊀㊀㊀㊀㊀㊀㊀文献标志码:A收稿日期:2020G09G07基金项目:山东省重点研发计划重大科技创新工程(批准号:2019J Z Z Y 020101)资助.通讯作者:陈宇,男,博士,副教授,主要研究方向为生物信息学.E Gm a i l :c h e n yu @q u .e d u .c n ㊀㊀基因调控网络是控制基因表达的分子相互作用网络.基因间交互错杂的调控关系构成了基因调控网络[1],这些网络在细胞生命活动的每个阶段都承担着重要的功能,是细胞信号通路的调控者,也是细胞中大量必需营养物质的控制层.网络中的基因因子之间相互作用,分为促进与抑制两种机制.其中,p53基因(A B 118156)[2]系属肿瘤抑制基因家族,是与人类肿瘤基因密切相关的遗传基因,可调节大量目的基因的表达,进而影响细胞组织的凋亡,分化.随着高通量技术的发展,构建基因调控网络有了更好的数据支撑.高通量D N A 芯片技术进步和几种物种的全基因组序列与基因表达量的可用性,为研究基因调控网络提供了一种新的策略.例如,C h e n 等[3]基于动态贝叶斯网络将表观遗传数据(即组蛋白修饰谱)整合到G R N 推断中,提高了G R N 网络的准确性.K h o s r a v i 等[4]发现G R N 的动态分析可以解释调控因子在不同条件(如癌症亚型)之间的变化,提出一种最新的逆向工程方法,从每个前列腺状态重建独立的基因调控网络.K h o s r a Gv i 等[5]通过观察P c G 蛋白通过形成多聚蛋白复合物抑制基因表达,阐明人类P c G 蛋白复合物的组成,识别该复合物结合的靶序列和能够抵消P c G 复合物作用的D N A 序列.这些方法整合了已知的结合位点信息以及表达水平㊁共表达谱,以预测调控相互作用和组装整个网络.近年来,基于神经网络的深度学习模型在各种分类问题中取得了较好成绩.例如,L i 等[6]通过综合分癌症的相关通路,提出了一种新的基于网络的方法来综合分析D N A 甲基化和基因表达数据,以扩展原始的途径.B a s a v e go w d a 等[7]基于深度学习网络架构,针对给定的癌症微阵列数据进行分析,对流行的癌症数据进行了高效的分类.这些只使用原始数据的方法比以前的实验方法获得了更好的性能.与传统的实验方法相比,深度学习方法允许其计算模型得到原始数据,并自动发现分类所需的复杂表示形式,具有成本低,速度快的优势.本文提出了一种应用于微阵列数据来预测基因对之间的调控关系的预测方法,该方法采用改进的F u z z y N e a r e s tP r o t o t y p e (N F N P )算法动态筛选数据集,并基于卷积神经网络算法进行了基因间关系的预测,与时间延迟表达谱结合,构建出相应时延性调控网络.㊀第4期㊀㊀㊀徐瑞杰等:基于深度学习构建时序基因调控网络1㊀数据与方法1.1㊀数据来源采用p 53相关基因转录的数据集[8],构建具有时延性的基因调控网络.该数据集含有功能性p 53的人白血病细胞系(MO L T 4),通过辐射器每隔2个小时对细胞进行照射,并提取R N A 和蛋白质来收集的.实践过程是对同一个实验独立且细胞制备物相同,同时进行3次,使用A f f y m e t r i xU 133A 微阵列保存,确保总体的转录反应.1.2㊀方法1.2.1㊀数据预处理㊀通过B i o C o n d u c t 包中的L i mm a 函数包[9]对微阵列数据集进行预处理,L i mm a 是用于分析基因表达微阵列数据的软件包,适用于对线性模型分析设计的实验和基因差异表达的评估.首先对基因表达量矩阵进行分组,构建D G E L i s t 对象;使用e d g e R 包中C P M 值方法(C o u n t GP e r GM i l l i o n )过滤数据中的低表达量的基因;利用e d g e R 中的c a l c N o r m F a c t o r s ()函数对数据标准化;通过e s t i m a t e D i s p ()估算离散值;最终使用L i mm a 包中v o o m 方法进行差异性处理.其中删除了信号质量差且在所有时间点上变化较小的探针.从总共22284个探针中获得了约8737个探针(8737个基因表达数据).1.2.2㊀数据筛选㊀采用了成对的F i s h e r 线性判别式[10]来筛选所有类别中具有明显表达差异的基因.该方法通过找到组间平方和与组内平方和的最大比值,寻找组间的良好分离.在处理数据时,舍弃一部分数据,在剩余的数据集里创建模型,进行交叉验证完成该有的功能.提出成对F i s h e r 线性判别式(P F L D ):(1)每一次从C k 基因样本中随机删除部分数据(5%);(2)对所有的类进行成对两两比较,根据F L D (F i s h e r 'sL i n e a rD i s c r i m i n a n t )计算出差异得分d p (i );(3)整个过程重复P 次,计算出最终期望差异d E (i )=ðp d p (i )/p ;(4)定义函数F d E ()=N u m b e r o f s i g n i f i c a n t s c o r e s £d ET o t a l n u m b e r o f s i gn i f i c a n t s c o r e s ;(5)取F d E ()⩾0 9.这里,P 设为100,确保成对F i s h e r 预测比独立预测的特征更加显著.表1㊀F i s h e r 方法与m a S i g pr o 方法比较基因筛选数R 20.50.60.70.80.9F i s h e r5232911425013m a S i g p r o 6613061394314重合基因数4552631314012重合占比0.690.860.940.930.86为了选出对研究有关的基因范围,设定F D R(F a l s eD i s c o v e r y Ra t e )=0 05和范围[0 5,0 9]的R 2阈值,同时使用了m a S i gP r o 包处理数据.m a S i gP r o 方法[11]是一种R 软件包,专门用于分析微阵列,该软件包已应用于相同的预处理微阵列数据集.采用相同的参数设置,使用m a S i g P r o 进行基因选择,筛选出相应基因.为了保证选择数据的鲁棒性,对两种方法交叉论证,发现不同R 2中,会出现基因重叠,如表1.特别是,当R 2阈值较高时,m a S i gP r o 方法提供的基因与F i s h e r 方法选择的基因重叠较多(>85%).因此,定义前15%为最相关响应探针被认为是一个稳健的选择.将经过预处理的探针进一步在每个阵列中居中并转化为Z 分数,筛选对电离辐射最相关的探针.选择最相关的响应探针中的前15%(约1312个探针)作为非线性模型的输入数据.1.2.3㊀聚类分析㊀使用N e u r a lG a s 算法[12]㊁N F N P 算法[13]对1312个数据进行处理.使用了N e u r a lG a s算法和s t r e s s f u n c t i o n 函数[14]对数据进行降维,实现了高维输入基因空间到低维子空间的转化.采用N F N P 算法进行最后的数据筛选,算法流程如下所示:开始㊀㊀输入x ,将基因向量分类;㊀㊀初始化i =1;52青岛大学学报(自然科学版)第33卷㊀㊀计算每个原型到x 的距离;㊀㊀㊀㊀计算出C i 到x 的距离;㊀㊀将C 1到C i 的距离段进行排序;㊀㊀初始化i =1;㊀㊀x 为所有的类分配成员;㊀㊀㊀㊀计算距离比u i (x )u i (x )=1/ x -C i 2/(m -1) cj =1(1/ x -C j2/(m -1))㊀㊀㊀㊀i ++;㊀㊀返回u i x ();结束通过上述算法,自动识别最优神经元,最终分配出40组不均匀的具有独特性质共表达基因模块.每个基因模块代表一组共同表达的基因,这些基因可以通过特定的实验条件或共同的反式调节输入来刺激.对这些基因模块进行更具体的数据分析,可能会发现它们之间的相互关系以及其在转录调控过程中的复杂机制.每组内的各个基因相互配对,对其表达水平数据进行皮尔逊相关系数的计算,并筛选相关系数>0 8的基因对,记录下40组基因模块中表达水平高度相关的基因对作为正样本数据集(5019对).同时,筛选记录出相关系数<0 4的基因对,作为负样本数据集(3930对),进行对照.1.2.4㊀时间延迟基因表达谱㊀在生物体的时间延迟的基因调节是一种常见的现象,多个时间延迟的基因之间的调控关系存在着一定的联系.这里加入了时间延迟(t d)的概念,可以发现多个时间点的基因之间的依赖关系.对每一组基因构建一个(m -T )ˑ(n ˑT )的时间延迟基因表达谱T d E (t i m e Gd e l a y e d e x pr e s s i o n pr o f i l e s )矩阵[15],其中T 列表示每一个基因在t ,t +1, ,t -T -1()时刻的基因表达水平,这样每一行就是n ˑT 维的向量.当t 在[T ,m G1]范围取值的时候,共产生m -T 个这样的向量,称作m -T 个样本.设定受控基因在t +1时间点下的表达状态为样本的类别标签.标签的设定为C i j =2,e i j >0㊀基因表达水平上调1,e i j £0㊀基因表达水平下调{(1)e i j =l g f e l ()-l g i e l ()(2)其中,e i j 为gi 在时间点j 下的表达水平,f e l 为t +1时刻的最终表达水平,i e l 为t +1时刻的初始表达水平.这样对于每个基因都得到了一个带类别标签的时间延迟基因表达谱D i =(T d E ,C i ).对于每个基因构建好时间延迟基因表达谱后,对预测后的基因对进行时间延迟标签的比对.定义初始时间延迟t d =T +1,基因对类别标签差异个数为m ,当基因对中两个基因在t 时刻的基因表达水平的调整状态不同时,时间延迟t d +m ,直到对比基因对上的每个时刻都对比完;当两个基因在t 时刻的基因表达水平的调整状态一一对应时,记时间延迟t d =0.由于T 取值不同,所以会出现不同时间点出现不同表达水平,定义n 为T 时间点上表达水平类别标签个数,m 当m <[n /2]([∗]为取整函数)时,时间延迟为负.否则,时间延迟为正.时间延迟t d 代表了基因对在调控过程中多个时间点上基因之间的依赖关系的延迟.2㊀结果与分析2.1㊀构建基因调控网络选取一组数据集(28个已论证基因),对其基因对之间的调控关系进行预测.该组基因中,有15个存在有丝分裂细胞周期过程中,17个存在染色体组织内,分别参与细胞周期的各个过程,具有相互调控的关系.为了验证结果的生物学意义,考察基因的表达模式和调控关系是否符合细胞周期的特征,对于从模型内提取预测的调控关系,均与已有的细胞周期基因表达和调控的知识匹配,并定义了更明确的基因间调控的时空关62㊀第4期㊀㊀㊀徐瑞杰等:基于深度学习构建时序基因调控网络系.这里对该数据集的基础数据进行了处理,对于每一组基因构建了一个(m GT )ˑ(n ˑT )的时间延迟基因表达谱T d E (t i m e Gd e l a y e d e x pr e s s i o n p r o f i l e s )矩阵,并且对于受控基因在t +1时刻表达状态进行了类别标记.对于每个基因构建好时间延迟基因表达谱后,对于预测后的基因对进行时间延迟标签的比对.将基因时间延迟表达谱与基因模型验证调控关系进行结合,构建基因时延性调控网络.2.2㊀基因调控网络可视化与分析经过分析验证,构建的模型发现了T P 53,J U N ,C C N A 2这三个基因之间的调控关系[16]是存在时间延迟的.J U N 作为转录因子对C C N A 2蛋白的生成具有激活作用,J U N 对T P 53基因活性具有抑制的作用,而T P 53对C C N A 2是具有转录抑制的作用,很明显当J U N 表达水平升高,对T P 53表达水平会降低,进而影响T P 53对C C N A 2的转录抑制的作用,所以C C N A 2表达水平会上升.另外一方面,C D C A 8作为有丝分裂关键调节剂,能够诱导细胞有丝分裂,作为着丝粒蛋白的C E N P F 参与细胞有丝分裂,受C D C A 8诱导表达.当C E N P F 蛋白增多时,促使了A U R K A 激酶的生成.C D C A 8调节剂的上升,不仅会间接的促使A U R K A 激酶的生成[17],同样也会直接影响C E N P F 蛋白的增多.在一定情况下,进一步说明证实了该模型具有较高的研究价值.基于不同时间T 发现了表达明显的3组基因簇,如图1所示.图1㊀基因延迟调控网络图(a )C E N P E 基因调控簇;(b )T p53基因调控簇;(c )A U R K A 基因调控簇图1中所示的每个节点表示一个基因,节点内字母编号为基因的名称;有向边表示基因之间的调控关系.表示基因间的激活状态,即正调;表示基因间的抑制状态,即负调.在状态线段边上的数值分别代表T =1,2,3,4时,不同时刻基因间的调控状态与时间延迟.其中 + 号为正调控, - 号为负调控,标记的数值为调控反应发生所耗费的时间,即时间延迟.例如,A U R K B 在调控B I R C 5的过程中,其最终反应调控为正调控.但是,在调控过程中具有不同的调控效果及时间延迟.在时间T =1,T =2,T =3三个时间段内均为正调控,且时间延迟分别为4,3,5个单位时间.在时间T =4时间段内为负调控,时间延迟为5个单位时间.3㊀讨论本文开发了一种基于神经网络的模型,该模型用于从微阵列基因表达数据中推断遗传调控机制.模型的优势在于通过对高通量数据处理和对数据中隐藏特征的提取,可以采用简单的方式深入研究基因表达的非线性特性.模型加入时间延迟的属性,对于基因调控过程中可能会出现延迟调控现象进行分析,更好的诠释了基因调控之间的依赖关系,对于p 53基因构建新的模型提供了技术支持[18].本研究对于数据集进行了相关的处理与操作,并对构建的模型进行了相关的模型评估.3.1㊀模型构建选取了5019对相关基因和3930对不相关基因的表达水平作为数据集,输入的数据是(7,2,1)的向量(每个基因7次表达水平数据,1对数据为2个基因).随机打散后选取了其中1/3对基因作为验证集,剩下作为训练集.由于单元数据维度较小(矩阵维度为7ˑ2ˑ1),使用一个相对较小的点乘网络,建立一个由可分离式的卷积神经网络(C N N )[19]和简单的全连接网络(d e n s)[20]组成的混合/组合网络,如图2所示.72青岛大学学报(自然科学版)第33卷图3㊀模型训练验证的A C C ㊁A U C变化曲线图2㊀卷积神经网络与全连接网络网络由两层卷积层和两层网络之间的M a xP o o l 层组成.除最后一层网络的激活函数为 s i gm o i d 外,其他各层网络的激活函数都为 r e l u ,模型使用 二值交叉熵(b i n a r y c r o s se n t r o p y )作为损失函数,使用 R M S p r o p 作为优化器.3.2㊀模型优化为了提升模型的收敛速度㊁提升模型的精度,去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权.采用 s k l e a r n 框架中的 S t a n d a r d S c a l e r 进行数据归一化处理.神经网络搭建的过程中涉及到很多超参数,例如,D N N 的隐藏层㊁每层神经元的数量(l a y e r s i z e );卷积网络的卷积核(k e r n e l s i z e )㊁过滤器大小(f i l t e r _s i z e )㊁D r o p o u t 比率.通常,这些超参数通过经验或者在模型训练初期随机填入,但这样效率不高.现采用超参数搜索的方式确定超参数,由计算机模拟这个过程.使用s k l e a r n 框架中的R a n d o m z e d S e a r c h C V 方法确定超参数.利用t e n s o r f l o w 2提供的c a l l b a c k 进行过拟合处理,记录了训练过程中各参数的变化,并设置了停止循环的阈值,达到一定准确度自动停止,保证模型准确性.3.3㊀模型评估表3㊀T P ㊁F N ㊁F P ㊁T N 指标指标数据T P 0.525914F N0.037734F P0.041530T N0.394821㊀㊀为了从侧面客观的评价模型的性能,分别计算了模型的T P ㊁F N ㊁F P ㊁T N 各项指标数据.其中T P ㊁T N 远大于F N ㊁F P ,反映出模型具有优秀的分类识别性能.如表3所示.与此同时,为了更好验证模型的统计性能,使用k a p pa 系数作为展示模型的性能指标,该系数作为衡量分类精度的指标已经取得很好的验证,能够表示模型整体一致性与分类一致性.最终模型验证结果为:p o =0 9207,p c =0 5086,k =0 8387.计算结果证实该模型具有良好的分类效果与性能.为避免模型的过拟合,增加模型的随机性,将数据集随机打乱,重复三次,最终进行模型验证,提高模型的鲁棒性.模型数据结果理想值设为0或1,其中预测值设定范围0,1[],设定|偏差|=理想值-预测值,认为偏差>0 5为准确,其他为不准确.验证了26607组数据,其中24498组数据与期望值吻合,2109组数据预测不准确,准确率高达92 07%.最后验证该模型的A U C ,最终均值为0 9425,说明该模型具有良好的性能.为了验证模型的可靠性和准确性,有没有欠拟合和过拟合的现象,记录了模型训练的A O C 值和每个e p o c h 后模型在训练集(T r a i n S e t )和验证集(V a l i d S e t )生成的l e a r n i n g cu r v e ,如图3.这里使用成对的F i s h e r 线性判别式和m a S i g P r o 包进行交叉验证,保证了实验结果的准确性.但是对于基因调控转录本身,取决于许多因素,例如基因间的反应环境,基因的活性以及反应时间.此外,使用相对误差来比较不同基因的误差.如果基因的表达水82㊀第4期㊀㊀㊀徐瑞杰等:基于深度学习构建时序基因调控网络92平比较弱,则模型估计误差可能会很大.因此,筛选15%活性最强,反应最大的基因组,尽可能减小不必要的误差.所以,实验测量误差[21]以及表达水平噪声[22]对建模准确性起到重要意义.4㊀结论本文研究基于卷积神经网络与全连接网络组合构建的深度学习模型,对微阵列数据表达水平数据进行了基因差异表达评估和线性模型分析,对筛选出的p53相关基因进行基因调控关系预测.利用L i mm a函数包对基础数据进行了预处理,筛选出信号质量强并且在时间点上变化较大的数据.通过F i s h e r线性判别式与m a S i g P r o方法进行了基因比例选择.使用N e u r a lG a s算法㊁N F N P算法对1312个p53相关基因数据进行了识别㊁处理㊁聚类.通过C N N与D N N的组合网络,结合时间延迟表达谱,构建出关于p53的时延性基因调控网络.本研究开发的基于深度学习神经网络的新模型可以从微阵列表达数据中推断基因调控.参考文献[1]V O G E L S T E I NB,L A N EDP,L E V I N E AJ.S u r f i n g t h eP53n e t w o r k[J].N a t u r e,2000,408(6810):307G310.[2]L A N EDP.P53,g u a r d i a no f t h e g e n o m e[J].N a t u r e,1992,358(6381):15G16.[3]C H E N H,MA D U R A N G A DAK,MU N D R APA,e t a l.B a y e s i a n d a t a f u s i o n o f g e n e e x p r e s s i o n a n d h i s t o n em o d i f i c a t i o n p r o f i l e s f o r i nGf e r e n c e o fg e n e r e g u l a t o r y n e t w o r k[J].I E E E/A C M T r a n s a c t i o n s o nC o m p u t a t i o n a l B i o l o g y a n dB i o i n f o r m a t i c s,2020,17(2):516G525.[4]K H O S R A V I P,G A Z E S T A N IV H,A K B A R Z A D E H M,e t a l.C o m p a r a t i v e a n a l y s i s o f p r o s t a t e c a n c e r g e n e r e g u l a t o r y n e t w o r k s v i ah u b t y p e v a ri a t i o n[J].A v i c e n n a J o u r n a l o fM e d i c a l B i o t e c h n o l o g y,2015,7(1):8G15.[5]P R O FAP.E p i g e n e t i c r e g u l a t i o no f g e n e e x p r e s s i o n[J].J o u r n a l o f t h eB r a z i l i a nC h e m i c a l S o c i e t y,2012,23(2):367G371.[6]L I J,Z H A N G Q,C H E NZ,e t a l.An e t w o r kGb a s e d p a t h w a yGe x t e n d i n g a p p r o a c hu s i n g D N A m e t h y l a t i o na n d g e n e e x p r e s s i o nd a t a t o iGd e n t i f y a l t e r e d p a t h w a y s[J].E n t i f i cR e p o r t s,2019,9(1):1G10.[7]B A S A V E G OWD A HS,D A G N E W G.D e e p l e a r n i n g a p p r o a c h f o rm i c r o a r r a y c a n c e r d a t a c l a s s i f i c a t i o n[J].C A A IT r a n s a c t i o n s o n I n t e l l iGg e n c eT e c h n o l o g y,2020,5(1):22G33.[8]B A R E N C O M,T OM E S C U D,B R E W E RD,e t a l.R a n k e d p r e d i c t i o n o f p53t a r g e t s u s i n g h i d d e n v a r i a b l e d y n a m i cm o d e l i n g[J].G e n o m eb i o l o g y,2006,7(3):R25.[9]WA N GS,Z H A OY,L I D,e t a l.I d e n t i f i c a t i o n o f b i o m a r k e r s f o r t h e p r o g n o s i s o f p a n c r e a t i c d u c t a l a d e n o c a r c i n o m aw i t hm i R N A m i c r o a rGr a y d a t a[J].T h e I n t e r n a t i o n a l J o u r n a l o f B i o l o g i c a lM a r k e r s,2015,30(2):226G233.[10]W I T T E N D M,T I B S H I R A N I R.P e n a l i z e d c l a s s i f i c a t i o n u s i n g F i s h e r's l i n e a r d i s c r i m i n a n t[J].J o u r n a l o f t h eR o y a l S t a t i s t i c a l S o c i e t y:S eGr i e sB(S t a t i s t i c a lM e t h o d o l o g y),2011,73(5):753G772.[11]C O N E S A A,N U E D A MJ,F E R R E RA,e t a l.m a S i g P r o:am e t h o d t o i d e n t i f y s i g n i f i c a n t l y d i f f e r e n t i a l e x p r e s s i o n p r o f i l e s i n t i m eGc o u r s e m i c r o a r r a y e x p e r i m e n t s[J].B i o i n f o r m a t i c s,2006,22(9):1096G1102.[12]MA R T I N E T ZT M,B E R K O V I C HSG,S C HU L T E N KJ.'N e u r a lGg a s'n e t w o r k f o r v e c t o r q u a n t i z a t i o n a n d i t s a p p l i c a t i o n t o t i m eGs e r i e s p r e d i c t i o n[J].I E E Et r a n s a c t i o n s o nn e u r a l n e t w o r k s,1993,4(4):558G569.[13]K E L L E RJM,G R A Y M R,G I V E N S JA.Af u z z y kGn e a r e s t n e i g h b o r a l g o r i t h m[J].I E E E t r a n s a c t i o n s o n s y s t e m s,m a n,a n d c y b e r n e tGi c s,1985(4):580G585.[14]WA N GJ,BϕT H,J O N A S S E NI,e t a l.T u m o r c l a s s i f i c a t i o n a n dm a r k e r g e n e p r e d i c t i o n b y f e a t u r e s e l e c t i o n a n d f u z z y cGm e a n s c l u s t e r i n g u s i n g m i c r o a r r a y d a t a[J].B M Cb i o i n f o r m a t i c s,2003,4(1):1G12.[15]L IX,R A OS,J I A N G W,e t a l.D i s c o v e r y o f t i m eGd e l a y e d g e n e r e g u l a t o r y n e t w o r k s b a s e d o n t e m p o r a l g e n e e x p r e s s i o n p r o f i l i n g[J].B M Cb i o i n f o r m a t ic s,2006,7(1):26.[16]MA L A I N E RC,S C H A C HN E RD,S A N G I O V A N N I E,e t a l.E u r y c o m a l a c t o n e i n h i b i t s e x p r e s s i o n o f e n d o t h e l i a l a d h e s i o nm o l e c u l e s a t a p o s tGt r a n s c r i p t i o n a l l e v e l[J].J o u r n a l o f n a t u r a l p r o d u c t s,2017,80(12):3186G3193.[17]P E R E I R A G,S C H I E B E LE.M i t o t i c e x i t:D e t e r m i n i n g t h eP P2Ad e p h o s p h o r y l a t i o n p r o g r a m[J].T h e J o u r n a l o f c e l l b i o l o g y,2016,214(5):499G501.[18]WA N GJ,T I A N T.Q u a n t i t a t i v em o d e l f o r i n f e r r i n g d y n a m i c r e g u l a t i o no f t h e t u m o u r s u p p r e s s o r g e n e p53[J].B M Cb i o i n f o r m a t i c s,2010,11:36.[19]王炳琪,吴则举.基于改进的C N N的啤酒瓶盖字符识别[J].青岛大学学报(自然科学版),2020,33(3):34G42.[20]I L I A D I SM,S P I N O U L A SL,K A T S A G G E L O SAK.D e e p f u l l yGc o n n e c t e d n e t w o r k s f o r v i d e o c o m p r e s s i v e s e n s i n g[J].D i g i t a l S i g n a l P r oGc e s s i n g,2018,72:9G18.[21]MO L E SCG,M E N D E SP,B A N G AJR.P a r a m e t e r e s t i m a t i o n i n b i o c h e m i c a l p a t h w a y s:a c o m p a r i s o n o f g l o b a l o p t i m i z a t i o nm e t h o d s[J].03青岛大学学报(自然科学版)第33卷G e n o m e r e s e a r c h,2003,13(11):2467G2474.[22]T I A N T,X US,G A OJ,e t a l.S i m u l a t e dm a x i m u ml i k e l i h o o dm e t h o d f o r e s t i m a t i n g k i n e t i c r a t e s i n g e n e e x p r e s s i o n[J].B i o i n f o r m a t i c s,2007,23(1):84G91.P r e d i c t i o no fR e g u l a t i o no fG e n eE x p r e s s i o nB a s e do n t h eD e e p L e a r n i n gX U R u iGj i e,Z HA N GL i n,C H E N Y u(S c h o o l o fD a t aS c i e n c e a n dS o f t w a r eE n g i n e e r i n g,Q i n g d a oU n i v e r s i t y,Q i n g d a o266071,C h i n a)A b s t r a c t:G e n e r e g u l a t i o n i s a n i m p o r t a n t o p e r a t i n g m e c h a n i s mi n l i v i n g o r g a n i s m s.D e e p l e a r n i n g t o p r eGd i c t t h e r e g u l a t o r y r e l a t i o n s h i p o f p53r e l a t e d g e n e s i s o f g r e a t s i g n i f i c a n c e f o ru n d e r s t a n d i n gg e n e r e g u l aGt i o n.A m o d e l b a s e d o n t h e c o m b i n a t i o no f C N Na n dD N N i s p r o p o s e d.A r r a y E x p r e s s o b t a i n e d t h e i o n i z i n g r a d i a t i o nA f f y m e t r i xd a t a s e t(EGM E X PG549),w h i c h c a n p r e d i c t t h e r e g u l a t o r y r e l a t i o n s h i p b e t w e e n g e n e s t h r o u g hm i c r o a r r a y e x p r e s s i o n l e v e l s,p r o v i d i n g92 07%c l a s s i f i c a t i o na c c u r a c y f o r t h e r e t a i n e dv a l i d a t i o n s e t,a n d t h ek a p p a c o e f f i c i e n t o f t h em o d e l r e a c h e s0 84,t h e a v e r a g e a c c u r a c y o fA U Cv e r i f i c a t i o n r e a c h e d 94 25%,t h e r e b y c o n s t r u c t i n g a g e n e r e g u l a t o r y n e t w o r kw i t h t i m eGd e l a y e d p53r e l a t e d g e n e s.T h e r e s u l t s s h o wt h a t t h em o d e l h a s a g o o dv e r i f i c a t i o n r e l a t i o n s h i p i n s c r e e n i n g o u t t h e g e n e p a i r sw i t hd e m o n s t r a t e d r e g u l a t o r y r e l a t i o n s h i p s,a n d c o n s t r u c t s a v i s u a l g e n e r e g u l a t o r y n e t w o r k.I t h a s g o o d p r e d i c t i v e v a l u e a n d r e s e a r c hv a l u e i n s c r e e n i n g o u t g e n e p a i r sw i t hu n k n o w n r e g u l a t o r y r e l a t i o n s h i p.K e y w o r d s:g e n e r e g u l a t i o n;h i g h t h r o u g h p u t d a t a;d e e p l e a r n i n g;t i m eGd e l a y e d(上接第23页)A p p l i c a t i o no f F u z z y C l u s t e r i n g A l g o r i t h mi nD a t a b a s eW a t e r m a r k i n gD IG u a nGd o n g1,C HE N G R u nGh u i2,X I A N H eGq u n1(1.C o l l e g e o fC o m p u t e r S c i e n c e&T e c h n o l o g y,Q i n g d a oU n i v e r s i t y,Q i n g d a o266071,C h i n a;2.X i n h u aN e w sA g e n c y M o b i l eT VS t a t i o n,B e i j i n g100053,C h i n a)A b s t r a c t:T h e c u r r e n t d a t a b a s ew a t e r m a r k i n g t e c h n o l o g y h a s t h e p r o b l e m s o f l i m i t e dn u m b e r o f c o p y r i g h t c e r t i f i c a t i o n s a n d i n a b i l i t y t o r e s i s t k e y l e a k a g e.O n c e t h e p a r a m e t e r s a r e l e a k e d,t h ew a t e r m a r k i n f o r m aGt i o nw i l l b ec o m p l e t e l y e x p o s e d.A i m i n g a t t h ea b o v e p r o b l e m s,aw a t e r m a r k i n g s c h e m eb a s e do nF C Mf u z z y c l u s t e r i ng i s p r o p o s e d.Th e t u p l e s e m b e d d e di n t h ew a t e r m a r ka r e f i l t e r e d t h r o u g h t h e c l u s t e r i n g a lGg o r i t h m,a n d t h ew a t e r m a r kd e t e c t i o n a n d d a t a r e c o v e r y a r e c o m p l e t e d t h r o u g h t h e c l a s s i f i e r.T h e r e s e a r c h r e s u l t s s h o wt h a t t h i s s c h e m e c a n p r o v e c o p y r i g h tm u l t i p l e t i m e s,e v e n i f t h e k e y a n dw a t e r m a r k p a r a m eGt e r s a r e e x p o s e d,t h ew a t e r m a r k i n f o r m a t i o nw i l l n o t b e e x p o s e d,a n d i t c a n s h o w g o o d r o b u s t n e s s a g a i n s t c o mm o nd a t a a t t a c k s a n dh a s c e r t a i n c o mm e r c i a l v a l u e.K e y w o r d s:d a t a b a s ew a t e r m a r k i n g;c o p y r i g h t;c l u s t e r i n g。

基因调控网络的构建和生物学意义研究

基因调控网络的构建和生物学意义研究

基因调控网络的构建和生物学意义研究随着生物学的发展和深入,国内外学者对基因的研究越来越深入,特别是对基因调控网络的构建和生物学意义的研究,已成为生物学领域的热点之一。

基因调控是指对基因表达的影响,主要通过基因调控网络来实现。

在生物体内,基因调控网络起着重要的作用,它能够协调各个基因之间的相互作用,诱导或阻止基因的表达,从而对生物体的形态、功能、生命周期等多个方面产生影响。

基因调控网络的构建是生物学研究的重点之一。

研究人员通过建立大规模基因调控网络,可以探索生物体内基因调控路径和关联关系,揭示基因、基因组、细胞和生物体之间复杂的相互作用关系,有助于生物学领域的深入发展。

目前,基因调控网络构建主要有两个策略:模块化拼接和反应扩散建模。

模块化拼接通常采用定向插入方法来构建转录因子和靶基因之间的互作关系,即将一个转录因子与一个靶基因进行拼接,形成一个模块。

不同模块之间通过共同的边来连接,从而组成整个基因调控网络。

这种方法在小鼠和人类细胞中建立了较好的基因调控网络模型,但由于该方法针对具体的转录因子和基因进行设计,往往难以建立全局性的基因调控网络。

反应扩散建模是一种基于系统动力学的方法,通过建立微分方程组并运用复杂网络理论来建立基因调控网络。

该方法能够精确地模拟生物体内基因调控过程中的时序关系和空间关系,并评估其生物学意义。

该方法在研究与突变相关的疾病中应用比较广泛,但也存在计算量大和参数调节困难的问题。

基因调控网络的研究对于生物学领域的发展具有重要的意义。

首先,基因调控网络是分子遗传学的核心内容,研究基因调控机制有助于揭示生物进化机制和生命起源的奥秘。

其次,基因调控网络研究有助于理解和阐明重大疾病与功能失调之间的关系,例如类型2糖尿病、肥胖症、癌症、神经系统退行性疾病等,为疾病预防和治疗提供新的思路和方法。

此外,基因调控网络在生物工程领域的应用也十分广泛,能够引导基因改造技术的发展,促进新型生物制药品和生物能源的开发。

构建基因调控网络的研究进展

构建基因调控网络的研究进展

构建基因调控网络的研究进展随着基因组学的发展,我们对于基因调控网络的研究也越来越深入。

基因调控网络指的是在基因表达过程中,不同基因之间的相互作用和调节关系。

这些关系构成了复杂的调节网络,决定了细胞的功能和特性,对于生物学、医学和农业等领域具有重要意义。

基因调控网络的研究可以从不同的角度入手,例如,从基因组水平、转录组水平、蛋白质组水平和代谢组水平等多个层面进行研究。

下面将分别介绍这些层面的研究进展。

一、基因组水平在基因组水平,研究者主要通过测序和比较基因组分析等方法,寻找基因之间的相互作用和调控关系。

一些较为简单的调控网络已经被研究得比较透彻,例如,大肠杆菌中的食物链调控网络。

这个调控网络控制了大肠杆菌中的耗氧代谢路径和发酵代谢路径的切换。

这个调控网络非常简单,只涉及到7个基因的相互作用和调控。

在其他一些生物中,基因调控网络的复杂程度就要高得多,需要用到更为复杂的方法进行研究。

生物之间的基因组不同,不同的生物也具有不同的基因调控网络。

近年来,越来越多的研究者将重点放在人类基因调控网络的研究上。

人类基因组中的基因数量逐渐被确定下来,但是基因与基因之间的相互作用和调控关系仍然十分复杂,需要用到大数据和人工智能等技术来进行研究。

二、转录组水平在转录组水平,研究者主要关注基因表达和mRNA的水平变化。

通过比较不同细胞中的基因表达差异和mRNA的水平变化,可以发现基因之间的相互作用和调控关系。

例如,在一些疾病中,基因表达的异常会导致疾病的发生和发展。

通过对基因表达谱的比较,可以找到可能与疾病相关的基因,进一步研究这些基因的调控网络,为疾病的治疗提供重要线索。

除了常规的基因表达分析外,近年来,单细胞转录组学也越来越受到关注。

传统的转录组学研究往往需要对成百上千个细胞进行测序,然后求取平均值来衡量基因表达。

但是这种方法无法查看不同细胞之间的差异。

单细胞转录组学技术可以对一个细胞进行分析,了解基因在细胞间的表达差异。

基因调控网络的建立及应用

基因调控网络的建立及应用

基因调控网络的建立及应用随着生物技术的快速发展和基因组学研究的深入,人们对于基因的调控机制越来越感兴趣。

而基因调控网络成为了研究基因调控机制的重要手段之一,它不仅能够帮助我们更好地理解基因调控的原理,还能够为研究相关的生物学问题提供一些新的思路和方法。

本文将主要介绍基因调控网络的建立及其应用。

一、基因调控网络的建立基因调控网络是由一系列基因调控元件和调控因子构成的,用于描述基因之间的相互调控关系。

建立基因调控网络的主要步骤包括:(1) 确定参考基因组,即建立一个标准的基因组序列;(2) 确定转录因子及其识别序列,即鉴定那些能够在基因组中识别和结合DNA序列的转录因子;(3) 确定基因的表达,即测定每个基因在不同条件下的表达水平;(4) 鉴定基因间的相互作用,即分析基因间调控因子的相互作用,以及基因间差异表达的相关性;(5) 建立调控网络,即将以上信息整合起来,建立不同基因间的相互调控关系图。

二、基因调控网络的应用1、解析基因调控机制。

基因调控机制是基因表达调控的核心,而正确地了解基因调控机制对于我们研究生物学问题具有重要的意义。

基因调控网络不仅可以描述基因间的相互作用关系,还能够通过基因表达数据进行功能富集分析,帮助我们了解基因在不同生物学过程中的调控机制。

2、筛选治疗靶点。

基因调控网络能够为靶向研究提供重要信息。

通过分析基因调控网络中的关键节点,我们可以鉴定一些与特定病症相关的基因或调控因子,并通过药物筛选实验来确定相应的治疗靶点。

3、预测药物作用机制。

基因调控网络不仅可以为药物筛选提供候选靶点,还可以通过分析药物对于调控网络的影响,预测药物的作用机制。

例如,某些药物可能会抑制或激活某些关键节点,从而对整个调控网络造成影响。

4、提高生物工程应用。

基因调控网络还可以应用于基因编辑和生物合成等生物工程领域。

通过调控网络中的关键节点或调控因子,我们可以实现对特定基因的自由编辑,同时也可以控制生物代谢过程中的新陈代谢产物的生成。

基因调控网络的建构和分析

基因调控网络的建构和分析

基因调控网络的建构和分析随着基因组测序技术和大数据分析方法的不断发展,我们越来越能深入了解基因调控网络的建构和分析。

基因调控网络是一个由基因、转录因子和调控元件等构成的复杂网络,通过相互作用调节基因的表达,起到维持生物体内稳态的作用。

基因调控网络的建构首先需要对基因组进行测序和注释,在此基础上将基因、转录因子和调控元件等互相关联,从而建立起一个包含多个节点和边的生物网络。

在这个网络中,每个节点代表一个具有生物学意义的实体,比如基因、蛋白质等,每条边则代表节点之间的相互作用关系,比如调控关系、物理相互作用等。

在基因调控网络的建构过程中,需要使用大量的基因组测序技术,比如RNA-Seq、ChIP-Seq等,以及生物信息学分析技术,比如基因组注释、基因表达分析、转录因子预测等。

这些技术不仅能够帮助我们挖掘出大量的基因、转录因子和调控元件,还能够分析它们之间的相互作用和调控关系,从而揭示基因调控网络中的底层机制。

基因调控网络的分析是基于上述建构过程得到的生物网络进行的。

分析方法主要包括网络拓扑分析、模块识别、关键基因鉴定等。

网络拓扑分析可以帮助我们了解整个网络的结构和性质,比如度分布、聚类系数等,从而揭示基因调控网络的特征和演化规律。

模块识别是将网络划分成若干个具有内部联系和特定功能的子网络,从而揭示生物体内的功能模块和调控路径。

关键基因鉴定是在基因调控网络中寻找起到重要作用的基因,比如中心度高、共同参与多个调控模块等,从而揭示基因调控网络中的关键成分和控制机制。

综合利用基因组测序技术、生物信息学分析技术和基因调控网络分析方法,我们可以深入了解生物体内基因调控系统的建构和调控机制。

基因调控网络的研究不仅可以为生物学、医学等相关领域提供重要的理论依据和技术支持,还能够帮助我们更好地理解生物体内稳态的维持原理和疾病发生机制,为治疗一系列疾病提供新的思路和方法。

基因调控网络构建方法研究

基因调控网络构建方法研究

它可以处理随机事件、控制噪声,能够获得变量间的因果关系,所以在基因网络模型中,贝叶斯网络比其它方法更有优势。
贝叶斯网络模型
202X
谢谢!
汇报人姓名
汇报人日期
布尔模型网络
基因调控网络的一种最简单的模型。在布尔网络中,每个基因所处的状态或者是“开”,或者是“关”。“开”表示一个基因转录表达,形成基因产物,而“关”则代表一个基因未转录,没有表达。
过于简化,存在局限性。
三、网络模型
Xi(t+∆t)=∑ωijxj(t)+η
线性模型
线性模型是一种连续的基因调控网络模型。在线性模型中,一个基因表达水平可表示为若干个其它基因表达水平的加权和,即:
通过动态网络的研究,我们才能深入把握系统的动态特征,了解基因之间的相互作用机制、基因其对于细胞或组织功能进行调控的机理,这样我们才能够真实有效的逼近基因调控网络的真实情况,从而利用这些信息为我们进行开发新药,疾病治疗,生命研究提供帮助,并推动疾病基因组学,药物基因组学这些分支学科的发展。
基因芯片技术
202X
单击此处添加副标题
基因调控网络构建方法研究
汇报日期
背景介绍
单击此处添加文本
相关技术理论
单击此处添加文本
基因调控网络模型
单击此处添加文本
CONTENTS
报告的主要内容
无论是原核细胞还是真核细胞,都有一套精确的基因表达和蛋白质合成调控机制。
01
基因表达调控是一个复杂的过程,基因和基因产物(如蛋白质等)之间形成错综复杂的相互作用,如果将这些相互作用用线条描绘出来,将呈现出网状结构,也就是我们说的基因调控网络。
02直接的相互作用,基因的诱导或抑制是受到特定蛋白的调控作用,而该蛋白质本身是由调控基因编码的。将蛋白质和各种酶的作用进行抽象,通过基因表达调控网络把基因之间非直接的相互作用关系呈现出来是非常有意义的,它映射了所有基因之间抽象的相互作用关系。

基因调控网络的构建及应用

基因调控网络的构建及应用

基因调控网络的构建及应用近年来,随着科学技术的不断发展,基因调控网络逐渐成为生物学和医学领域的研究热点之一。

基因调控网络是指由多种基因和调控因子组成的复杂网络结构,能够调控基因的表达模式和细胞的生理功能。

其研究有利于深入了解生命体内的代谢、信号传导和调控机制,对预防和治疗各种疾病有着重要的意义。

本文将讨论基因调控网络的构建和应用。

一、基因调控网络的构建在构建基因调控网络时,主要有两种方法:一种是通过实验手段收集大量基因表达数据,然后利用生物信息学方法对数据进行处理,预测基因调控关系并构建调控网络;另一种是通过文献综述等方式获取已知的基因调控关系,构建调控网络。

1. 实验手段基因表达数据是构建基因调控网络的重要数据来源,通常采用高通量测序技术和芯片技术进行大规模测序和检测。

得到大量的基因表达数据后,需要对其进行差异分析和聚类分析等操作,以便筛选出差异表达基因,从而预测基因调控关系。

差异分析是指对两组或多组基因表达数据进行比较,发现差异表达的基因。

聚类分析是将差异表达基因按照表达模式进行聚类,从而找出相关联的基因。

基于这些数据,可以利用网络拓扑结构分析等方法构建基因调控网络。

2. 文献综述另一种构建基因调控网络的方法是通过文献综述等方式获取已知的基因调控关系,并对这些关系进行整合和分析。

不同于实验手段,这种方法不需要大量的基因表达数据,但是需要专业的生物学知识和文献检索能力。

文献综述主要包括系统综述和元分析两种方法。

系统综述是指对相关文献进行筛选,并将各种研究结果进行汇总和分析,从而找出可靠的基因调控关系。

元分析则是通过对已有研究结果进行统计分析,来验证和推广基因调控网络的构建。

二、基因调控网络的应用基因调控网络的构建有着广泛的应用前景,主要包括以下三个方面:1. 疾病筛选和预测基因调控网络的构建能够从基因水平上了解疾病的发病机制和病理生理过程。

通过分析基因调控网络中的关键调控因子和信号通路,可以发现其与多种疾病的关系,进一步挖掘出新的生物标志物和药物靶点,提高疾病的筛选和预测能力。

生物信息学中的基因调控网络建模与分析

生物信息学中的基因调控网络建模与分析

生物信息学中的基因调控网络建模与分析生物信息学是一门融合了生物学、计算机科学和统计学等多学科的交叉学科,它的出现使得我们可以更好地理解和分析生物学中的复杂数据。

而基因调控网络的建模与分析则是生物信息学研究中的一个重要方向。

本文将探讨基因调控网络建模与分析在生物信息学中的应用和意义。

1. 基因调控网络的概念基因调控网络是指细胞中基因之间相互作用的网络。

在调控网络中,每个基因都可以作为节点,而基因之间的相互作用关系则可以看作是节点间的连接。

通过研究和分析基因调控网络,我们可以揭示基因之间的调控机制、预测基因功能以及了解疾病发生发展过程等重要信息。

2. 基因调控网络的建模方法为了建立基因调控网络模型,研究者们提出了许多不同的方法。

其中,最常用的方法是从大量的实验数据中构建网络模型。

例如,通过测量基因在不同条件下的表达水平,可以得到基因表达矩阵。

然后,可以利用相关系数、互信息等方法计算基因之间的相互关系,并建立调控网络模型。

此外,还有一些基于生物学先验知识的方法,如基于转录因子结合位点的预测方法等。

3. 基因调控网络的分析方法建立基因调控网络模型后,我们可以运用各种分析方法来揭示网络中的重要特性。

例如,中心性分析可以帮助我们找出网络中最重要的节点;模块化分析可以将网络分割成不同的功能模块,从而识别重要的调控通路;而拓扑特性分析可以揭示网络的鲁棒性和稳定性等。

这些分析方法可以帮助研究者更好地理解基因调控网络的结构和功能。

4. 基因调控网络的应用基因调控网络的建模与分析在生物信息学中有着广泛的应用。

首先,它可以帮助我们解释基因表达数据中的差异,揭示基因之间的调控关系。

其次,它可以用于预测潜在的基因功能和寻找与疾病相关的基因。

此外,基因调控网络模型还可以提供新的治疗策略和药物靶点等信息。

因此,基因调控网络的建模与分析对于深入理解生物学基本问题和开展相关领域的研究具有重要意义。

5. 基因调控网络建模与分析的挑战和展望尽管基因调控网络建模与分析取得了一系列重要的成果,但仍然面临一些挑战。

基因调控网络的构建和应用研究

基因调控网络的构建和应用研究

基因调控网络的构建和应用研究基因是生物体内掌握全部信息的遗传因素,同样也是控制生物体各种生理过程的基础,而基因调控网络则是这些基因之间相互作用、影响和协同的网络系统。

随着科技的发展,基因调控网络分析研究已经成为现代生物学、医学和生物信息学的一个重要分支。

一、基因调控网络的构建方法1.微阵列技术:利用微阵列技术,可以对成千上万的基因在一个实验中进行检测和比较,分析基因在不同条件下的表达变化,并在此基础上描绘出基因调控网络。

2.序列分析技术:通过大量基因组序列的整合和分析,描绘出各种物种基因组的结构和特征,发现其中重要的功能序列和基因调控元件,进而构建基因调控网络。

3.蛋白质互作技术:通过蛋白质互作技术,可以发现蛋白质之间的作用和相互影响,通过拼接构建出基因-蛋白质-基因的调控网络。

4.代谢物组学技术:通过代谢物组学技术,揭示各种物质之间的相互关系和调控机制,生成基因调控网络。

二、基因调控网络的应用研究1.疾病基因调控网络:基因调控网络可以用于疾病的发病机制探究和诊断治疗,例如癌症等复杂疾病,有着复杂的多基因调控网络。

2.农业优化基因调控网络:以植物为研究对象,描绘出植物基因间的调控网络,发现不同物种、不同品种的基因调控网络之间的差异,从而为植物性状的调控和品质改良提供理论基础。

3.环境适应基因调控网络:通过研究某些生物在环境变化条件下的基因表达调控,描绘出环境适应性的基因调控网络,从而揭示生物如何适应复杂的环境变化,为环境调控提供理论依据。

4.神经科学基因调控网络:基因调控网络研究在神经科学领域应用价值尤其明显,可以研究与机体感知、行为、情感和认知的调控有关的基因调控网络运作,对人类疾病的治疗也有重要的意义。

三、基因调控网络存在的问题与未来展望1. 数据处理与解析难题:基因调控网络研究目前仍然处于起步阶段,数据处理和解析方法有待进一步完善,以提高数据成果的准确性和可解释性。

2.生命科学的综合性挑战:基因调控网络研究需要各个学科的交叉融合,涉及到生物学、物理学、化学、计算机科学等多个领域的知识,需要增加实验研究的多样性和复杂性,提升多学科的综合性。

基于时序互信息构建基因调控网络

基于时序互信息构建基因调控网络

基于时序互信息构建基因调控网络
缑葵香;宫秀军;汤莉
【期刊名称】《天津大学学报》
【年(卷),期】2010(000)007
【摘要】为构建基因调控网络,提出了一个基于时序互信息学习动态贝叶斯网络结构的学习算法.在计算基因间的时序互信息时,该算法考虑了时间序列微阵列数据的时间特性,并利用协方差矩阵计算互信息,没有将基因表达数据离散化,与基因表达数据的连续性相符合.在酵母菌周期细胞的实验数据上测试该算法,灵敏度为66.7%;该算法构建的基因调控网络与KEGG数据库中的网络相比较,发现了Cdc28与
Cdc20、Chk1与Rad9的调控关系,这些调控关系在相应的生物学实验中得到验证.【总页数】6页(P655-660)
【作者】缑葵香;宫秀军;汤莉
【作者单位】天津大学理学院,天津,300072;天津大学计算机科学与技术学院,天津,300072;天津大学计算机科学与技术学院,天津,300072;天津大学计算机科学与技术学院,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于部分互信息和贝叶斯打分函数的基因调控网络构建算法 [J], 刘飞;张绍武;高红艳
2.基于bootstrap方法的贝叶斯网络结构学习算法在构建基因调控网络中的应用[J], 李海龙;侯艳;柯朝甫;李康
3.基于熵互信息理论的基因调控网络的研究 [J], 黄成玉;阮晓钢;李建更
4.互信息关联模型在基因调控网络构建中的应用 [J], 王锐;张献志;曾丽华;陈活良;张洁琼
5.基于深度学习构建时序基因调控网络 [J], 徐瑞杰;张淋;陈宇
因版权原因,仅展示原文概要,查看原文内容请购买。

基因调控网络的建模与分析

基因调控网络的建模与分析

基因调控网络的建模与分析基因调控是生命体系中十分重要的一个环节,它涉及到基因的表达和激活,能够决定生命体系的形态和功能。

基因调控网络是基因调控的信息交互网络,它是基因调控的实现机制,调控网络的建模和分析是深入研究生命科学和医学的关键技术。

本篇文章将对基因调控网络的建模和分析展开讨论。

一、基因调控网络的建模基因调控网络是由调控基因和受调基因组成的复杂网络,建立基因调控网络模型有利于我们更好地理解基因调控的机制和生命体系统的功能。

目前常用的基因调控网络建模方法有数学模型和生物实验模型两种。

1、数学模型数学模型是基于计算机处理的方法,通过对基因调控网络的动态系统方程进行建模来模拟基因表达动态变化过程。

其中最常用的模型是:基于常微分方程和随机过程模型。

常微分方程的模型以基因转录因子和基因的RNA、蛋白质表达等信息为基础,把基因调控网络的复杂性抽象为数学模型来探究。

随机过程模型是根据随机过程的数学公式,对基因调控网络内复杂控制关系进行描述。

其中的随机性反映了细胞生物学、基因调控等领域中本质的波动性和异质性。

2、生物实验模型生物实验模型是指用实验方法对基因调控网络进行模拟实验,研究基因调控的基本原理和调控因素。

其中常见的方法有“转录联锁”模型、“开关”模型和“激活/抑制型”模型。

转录联锁是种典型的基因调控网络模型,在转录因子作用下基因表达产生反馈机制,实现基因调控。

开关模型用于描述基因活性突变导致基因表达不同、对生理状况的变化敏感性不同,将基因调控关系简化为开关控制。

激活/抑制型模型则是对基因调控网络内外抑制作用和激活作用进行分类,利用基于信仰逻辑计算的方法进行模拟。

二、基因调控网络的分析基因调控网络的分析是对基因调控网络模型进行评估和验证的过程,我们需要评估其准确性、实用性、可靠性等指标,确认模型是否具有预测性和实际应用价值。

现有的基因调控网络分析方法主要有网络拓扑分析、功能分析和复杂性分析三个层面。

1、网络拓扑分析网络拓扑分析是基于调控网络的结构和功能来评估网络模型的准确性和实际价值的方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Wu 等[2]还讨论了利用 MCMC(Markov chain Monte Carlo)方法构建动态贝叶斯网络的 MH(metropolis hastings)算法.如果一个过程的“将来”仅依 赖“现在”而不依赖“过去”,则此过程具有马尔可夫 性,或称此过程为马尔可夫过程,X(t)=f(X(t-1)).时 间和状态都离散的马尔科夫过程称为马尔科夫 链.设 S 是一个可数集,{X (t),t = 1, 2, , s} 是一组随 机变量的集合,如果满足 P( X (t) | X (t − 1), , X (1)) = P( X (t) | X (t −1)) ,则称 {X (t),t = 1, 2, , s} 为 一 个 马 尔 科夫链.对于一个马尔科夫链,如果 P( X (t) | X (t −1)) 与 t 的取值无关,则称这个马尔科夫链为齐氏马尔科 夫链.动态贝叶斯网络的转移网络就是一个齐氏的马 尔科夫链.
摘 要:为构建基因调控网络,提出了一个基于时序互信息学习动态贝叶斯网络结构的学习算法.在计算基因间的时
序互信息时,该算法考虑了时间序列微阵列数据的时间特性,并利用协方差矩阵计算互信息,没有将基因表达数据离散
化,与基因表达数据的连续性相符合.在酵母菌周期细胞的实验数据上测试该算法,灵敏度为 66.7%;该算法构建的基
很多数学模型如布尔网络模型、微分方程模型、 静态贝叶斯网络模型和动态贝叶斯网络模型[1]等被 提出用于构建基因调控网络.相对来讲,布尔网络模 型是一种简单的离散模型,对系统的模拟是定性的、 较为粗糙的.微分方程所给出的模型是确定性的、连 续的,然而由于细胞中的分子受到热力学波动和噪声 过程的支配,基因表达是一个随机过程,微分方程模 型不能很好地描述基因表达的随机性.静态贝叶斯 网络是一个有向无环的概率图形,它用概率来表示调
个基因表达水平的向量为 X (t) = ( X1(t), , X n (t))T ,基 因 i 在 s 个时间点上表达水平的向量为 Xi = ( X i (1), , X i (s))T .
动态贝叶斯网络假定:①网络中的有向弧随着
时间的变化而展开,即假定动态贝叶斯网络是一阶马
尔科夫的,基因 i 在 t 时刻的表达水平只依赖于它的
天津大学学报
第 43 卷 第 7 期
控关系,更符合生物学实际.静态贝叶斯网络模型可 以成功地从非时序数据中推断出随机变量之间的因 果关系,但是不能对动态时间数据进行建模,因而不 能成功地从时间序列的微阵列数据中构建基因调控 网络.动态贝叶斯网络(dynamic Bayesian network, DBN)是在静态贝叶斯网络的基础上,引入了时间维 而形成的动态网络,动态贝叶斯网络能够学习随机变 量间的概率依存关系及其随时间变化的规律,并以图 的方式直观地反映这种关系,由于微阵列数据的时间 特性,动态贝叶斯网络可以更精确地描述基因调控网 络,所以基于动态贝叶斯网络从时间序列微阵列数据 中构建基因调控网络成为当前的一个研究热点.目 前,已有许多基于动态贝叶斯网络构建基因调控网络 的相关算法[2-5],但这些算法都需要将连续的基因表 达数据离散化,没有充分利用数据所包含的信息.
t=1 i=1
式中 Pai (t −1) 为基因 Xi (t) 的父节点.一个典型的动
态贝叶斯网络如图 1 所示.
图 1 一个简单的动态贝叶斯网络 Fig.1 A simple dynamic Bayesian network
从数据中学习动态贝叶斯网络分为结构学习和 参 数 学 习 两 个 过 程 .给 定 一 个 时 间 序 列 的 数 据 集 D = ( X (1), , X (n)) ,从 D 中学习动态贝叶斯网络结 构就是找到一个与 D 最佳匹配的结构 G = (V , E) ,其 中 V = {X1, , X n} 为 顶 点 的 集 合 ,Xi 表 示 基 因 i , E = {( Xi (t −1), X j (t)) | X i (t −1) → X j (t)} 为 一 组 有 向 弧 的集合,Xi (t −1) → X j (t) 表示 t-1 时刻的基因 i 对 t 时刻的基因 j 有调控关系,即基因 i 在 t-1 时刻的表 达水平影响了基因 j 在 t 时刻的表达水平.研究人员 对用动态贝叶斯网络从时间序列基因数据中构建基 因调控网络的模型做了大量的研究工作. 1.2 相关研究
时间序列(time series)微阵列数据,可以反映一 组基因在生命活动周期的时间序列条件下的表达水 平的变化,其表达水平变化的时间延迟关系可反映基 因调控关系,因而近年来被广泛地用于基因之间转录 调控关系寻找和基因调控网络的构建.构建和分析 基因调控网络,从分子水平认识细胞内的生理活动和 功能,了解通路中的相互作用,以及如何使生物体产 生变化.基于微阵列数据构建基因调控网络,逐渐成 为生物信息学的研究热点.
第 43 卷 第 7 期 2010 年 7 月

天津大学学报 Journal of Tianjin University
Vol.43 No.7 Jul. 2010
基于时序互信息构建基因调控网络
缑葵香 1,2,宫秀军 2,汤 莉 2
(1. 天津大学理学院,天津 300072;2. 天津大学计算机科学与技术学院,天津 300072)
笔者提出了一个基于动态贝叶斯网络构建基因 调控网络的算法,该算法基于时序互信息来学习动态 贝叶斯网络,在计算基因间的时序互信息时,该算法 考虑了时间序列微阵列数据的时间特性,并利用协方 差矩阵计算互信息,没有将基因表达数据离散化,与 基因表达数据的连续性相符合,减少了信息的损失.
1 动态贝叶斯网络及相关研究
Wang 等[4]针对趋势相关(两基因在其表达水平 随时间上升与下降的变化趋势上相关)关系在重建基 因调控网络中十分重要却尚未被挖掘利用的问题,提 出了几何模式动态贝叶斯网络(Gp-DBN)方法.GpDBN 将每个基因的表达数据转换为一个几何模式, 依据几何模式确定潜在的调控子和调控时滞,并通过 推理这些几何模式之间的相关关系来发现基因间的 调控关系.该方法解决了挖掘具有趋势相关的基因 调控关系的问题,能够很大程度地提高重建的基因调 控网络的性能.
父节点在 t-1 时刻的表达水平,而与 t-1 时刻前的表
达状态完全独立;②基因之间的动态因果关系在所有
的时间点上都没有变化,即随机变量的集合以及相应
的概率转移函数,对每个时间点来说都是相同的.根
据以上假设,网络的条件概率分布可表示为
sn
P(X1(1), , Xn (s)) =
P(Xi (t) | Pai (t −1)) (1)
Wu 等 [2] 讨 论 了 利 用 BDE(Bayesian dirichlet equivalence)打分函数来构建动态贝叶斯网络的贪婪 的 爬 山 搜 索 算 法 .给 定 一 个 时 间 序 列 的 数 据 集 D = ( X (1), , X (n)) ,从 D 中构建动态贝叶斯网络就 是发现一个与 D 最匹配的模型 M = (G,Θ ) ,G 是网络 结构,Θ 是条件概的集合.BDE 打分函数的方法对父 节点的数目比较敏感,容易陷入局部最优,计算复杂 性指数级 O(μ2N ) ,N 为网络中节点的数目,μ 为指定 的父节点的上界.计算复杂度高,而且这种方法需要 将基因表达数据离散化.
1.1 动态贝叶斯网络
动态贝叶斯网络是贝叶斯网络的扩展,它包含
随时间变化的隐含的状态,使隐含的随机进程的熵的
比 率 最 大 化 ,它 是 有 向 有 环 图 .设 一 个 时 间 序 列
X ∈ Rs×n ,s 为时间点的数目,n 为基因的数目.Xi (t) 表示基因 i 关于时间 t 的表达水平的变量,在时刻 t,n
Constructing Gene Regulation Network Based on Time Series Mutual Information
GOU Kui-xiang1,2,GONG Xiu-jun2,TANG Li2
(1. School of Sciences,Tianjin University,Tianjin 300072,China; 2. School of Computer Science and Technology,Tianjin University,Tianjin 300072,China)
Liu 等[5]指出在基因调控网络中不仅单个蛋白 质对基因具有调控作用,而且一些蛋白质的组合对基 因也具有调控作用,Liu 把这些蛋白质的组合看作基 因调控网络中的隐藏变量.Liu 提出了一个Semi-fixed 模式将基因调控网络表示为具有隐藏变量的贝叶斯 网络,并用EM 算法构造 Semi-fixed 模式的基因调控 网络.
这种方法也需要将基因表达数据离散化,基因调控网络
·657·
时间复杂度高,即使在数据充分的情况下,学习的结 果也不是很理想.
Zhu 等[3]根据生物学的细胞活化信号路径等先 验知识,在基于贝叶斯网络构建基因调控网络时,缩 小了搜索空间,降低了时间复杂度,扩大了构建基因 调控网络的规模
收稿日期:2009-09-07;修回日期:2010-03-01. 基金项目:天津市应用基础及前沿技术研究计划重点资助项目(07JCZDJC06700). 作者简介:缑葵香(1979— ),女,博士,讲师,gkxiang@. 通讯作者:宫秀军,gongxj@.
·656·
Abstract:In order to construct gene regulation network,a learning algorithm was proposed based on dynamic Bayesian network with time series mutual information learning. In calculation of time series mutual information between genes,the proposed algorithm takes into consideration the time property of time series microarray data and calculates mutual information with covariance matrix,so that the gene expression data are kept indiscrete,which is in accordance with their continuum. Test of the algorithm on experiment data of yeast cell cycle shows that the sensitivity of the algorithm was 66.7%. In comparison between the networks in KEGG database and those constructed with the proposed algorithm,the regulation relationships between Cdc28 and Cdc20 and between Chk1 and Rad9 were identified,which were verified by related biology experiments. Keywords:gene regulation network;dynamic Bayesian network;time series mutual information
相关文档
最新文档