基因表达

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息前沿研究进展讲座结课论文

——基因表达调控网络研究文献综述

物理学院张玉萍 10304830

摘要

近些年来,基因序列测序的完成、大规模测定基因表达水平的基因芯片(Microarray)技术的出现和高性能计算机的使用使得用模拟计算的方法大规模的研究基因表达调控成为可能,一些研究者已经开始绘制控制整个活细胞基因表达的调控网络。例如λ噬菌体的溶原/裂解活性的调控网络的数学模型已经构建出来。用数学模型的方法预测网络结构是目前研究的热点。本文对表达转录调控网络的研究现状进行综述。

基因表达调控网络

Wyrick(2002)[1] 中给出了一个基因表达调控网络的定义:一组调控因子如何调控一套基因表达的过程称为基因表达调控网络。基因表达调控网络是基因调控网络的一个重要部分。参与基因表达调控网络的元素主要包括cDNA、mRNA、蛋白、小分子等。从元素间相互联系的角度来看,基因表达调控网络是一个由节点(调控元素)、边(调控作用)组成的一个有向图结构。如图1

图1:简单基因网络结构示意图

图中每一个圆圈代表一个节点,也就是调控网络的元素,如基因。有向箭头表示表达增强作用,末端断线表示表达抑制作用。在基因网络中,存在基因对自身表达的自调控的现象。

总的来说表达调控网络有如下特点:

A:网络结构复杂

网络中节点和边的数目庞大。在人体中总共有3万到4万左右的基因,而且真核生物中大多数的基因会同时被两个和两个以上的基因调控,这就使网络形成了一个非常高维的结构。

B:网络结构变化

生物学的实验表明,相同的基因在人和动物的细胞周期中可以参加不同的生理过程,实现不同的生理功能。还有一些基因只在某些时刻和特定的外界条件下是有相互作用的,在其他条件下不会发生作用。简单的说就是两个基因间的那条边是否存在、作用的方向在不同时期是可能不一样的。

C:相互作用类型多变

在生物体中,基因间相互作用可以有很多类型(如图1),包括了很多作用的特征:两个基因间谁影响谁、影响的方式、增强的作用还是抑制的作用、影响产生的条件、影响的强弱量级、被调控基因的表达量和调控基因的表达量直接的关系等。目前的研究表明,基因间的相互作用可能是一种非线形的作用关系。在多因子调控模式中还要考虑不同的调控因子对同一个目标调控基因产生作用时的某种逻辑关系,这种逻辑关系是由调控模式中各调控因子的相互关系决定。

D:节点类型多样

网络节点的元素可以是DNA、mRNA、蛋白、分子、大分子、外界环境等等。

E:节点状态变化

在细胞周期过程中,每一个基因的表达量不是固定的,会随着条件的变化而变化、蛋白质在不断的合成,同时也在不断的被降解。在不同的调控模式下,蛋白合成和降解的比率会发生变化,从而会使蛋白处在不同的水平上。基因的表达量的变化会影响到相互作用的变化,会引起网络结构的变化。

F:有向循环结构

在生物体中各种生理上的周期现象,我们很容易理解生物体中的相互作用存在周期性。至少在网络的局部上是循环的。在已经研究的比较多的低等生物E.coli的表达调控网络[2]中已经发现了循环的结构。

表达转录调控网络的研究现状

目前关于基因调控的绝大部分问题还没有解决。除了生物学家努力通过新的实验技术和生物理论来研究问题外,近几年,利用数学、统计学、神经网络、人工智能等方法在计算机上分析模拟表达调控机理,是计算分子生物学方面一个飞速发展的方向。由于分析模型的不同和采用的数据类型的差异,目前研究主要分为两个方面:基于基因芯片数据的关系推断模型和基于基因序列信息的调控因子结合位点推断模型。

下面分别就这两个方面的一些方法做一个简要介绍。

(一)基于基因芯片数据的关系推断方法

基因芯片的数据形式为:

图2

矩阵X 中每一行代表一个基因,每一列代表一张芯片(样本)上基因的数据。 ij x 为基因i 在实验(条件)中的表达值。由基因芯片的实验原理,j ij x 取为相对的荧光强度的比值:

2log R ij G

I x I = R I 为芯片上样本组基因(红色荧光剂)的强度,G I 为芯片上对照组基因(绿色荧光剂)的强度。在芯片数据的后期处理过程中可以对每张芯片内的全部基因的表达值做归一化处理,去除芯片的背景噪声。目前利用基因芯片数据做分析推断的模型不少,主要包括有向图模型、贝叶斯网络、布尔网络、微分动力模型、随机微分方程、神经网络的方法等等[3]。下面简要介绍一下研究比较多的聚类分析方法和贝叶斯网络模型。

A . 表达数据聚类分析方法

聚类是探索性数据分析和模式发现的一种基本手段,其目的是提取数据中隐含的类别结构。但是,聚类是一个模糊的概念,没有一个准确的定义。已知有几十种聚类算法和大量的专门聚类程序被用于DNA 微阵列数据的分析,其类型涵盖了分级聚类、k 均值聚类等[4][5][6][7],它们没有一个显而易见的共同点。由于聚类问题的多样性和“开放性”,不大可能给出聚类的一个系统化的完备处理框架,聚类算法之间的一个重要差别在于他们是有监督的还是无监督的。在有监督聚类中,聚类基于一个给定的参考向量集或类别集。在无监督聚类中,没有一个事先给定的向量集和类别集。目前,由于基因转录的调控模式并不清楚,像k 均值和自组织映射(SOM )[8],这样的无监督聚类方法是转录关系研究中最常用的。

在聚类算法中,距离的定义非常关键,可以在很大程度上影响聚类算法的结果。根据适用情况的不同,每种距离都有自己的优缺点。Pearson 相关系数能够反映表达模式形状的相似性但不强调两组测量的数值关系,对偏差比较敏感。而欧式距离可以反映两者在数量关系上的差异,不强调形状的相似性。

聚类类别数K 的选择是非常棘手的问题,它取决于我们在什么尺度上观察数据,对于聚类问题的严格讨论,需要预先给出一种原则性的方法来比较同一数据集不同聚类结果。需要一个易于计算的全局代价/误差函数。聚类的目标就是最小化这一函数。然而,没有普遍适用的函数,代价函数必须根据具体的问题来决定,不同的代价函数会导致不同的结果。

分级聚类通过计算两两距离从数据中自动建立一棵树而非一组类别。如何从树中定义类别的方法并不明显。因为类别是通过在树的某些节点剪枝得

相关文档
最新文档