基因表达调控和基因网络
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
eQTL热点
几乎所有的研究数据都表明eQTL在遗传图谱上不是均匀 分布的。当在某个特定区域中eQTL簇比预期的要多许多, 那么这个区域经常被认为是一个eQTL热点。 一个具有生物学意义的eQTL热点则是具有高密度transeQTL的基因组区域,可以用主调控子来解释,比如,转 录因子,可以影响许多下游基因的表达。 例:在拟南芥中通过遗传基因组学研究许多基因定位于 ERECTA位点, ERECTA是一个对许多形态和发育性状 都有调控作用的基因。这一发现就证明了主调控子对于基 因表达的调控效应可以延展到植物体的表型水平上
指在个体发育的任一阶段都能在大多数细胞中持续进行的基因表达。 其基因表达产物通常是对生命过程必需的或必不可少的,且较少受环境 因素的影响。这类基因通常被称为持家基因(housekeeping gene)。
2、诱导和阻遏表达 诱导(induction):是指在特定环境因素刺激下,基因
被激活,从而使基因的表达产物增加。这类基因称为可诱导基因。 乳糖 → 利用乳糖的三种酶表达
基因芯片所得到的表达数据不仅可以用于基因表达时空规 律分析,研究及功能,而且还可以用于分析基因间相互关 系,研究基因转录调控网络。一个基因的表达受其他基因 的影响,同时这个基因有影响其他基因的表达,这种相互 影响互相制约的关系构成了复杂的基因表达调控网络,几 乎所有细胞活动都被基因网络所调控。 基因网络研究的意义在于通过建立基因转录调控网络模型 对某一个物种或组织的全部基因的表达关系进行整体的模 型分析和研究,在系统的框架下认识生命现象,特别是信 息流动的规律。
eQTL与表型QTL有许多共通之处,研究表型QTL的方法及要点均适 用于eQTL。
eQTL就是染色体上的一个区域,代表DNA序列变异很可能的遗传位 点,是引起在这个群体间转录丰度可检测的变异的原因。
一个基因可以有一个或多个eQTLs。大规模的mRNA profiling技术 一次实验可以检测到成千上万的eQTLs,拓展了多种物种中基因组 范围eQTL的定位。
网络模型类型与应用
基因网络模型很多,也有不同的分类方法: 离散型网络模型(Boolean network model)和连续网络模型 (correlation metric construction, CMC), 确定型网络模型(D’haeseleer 等的线性模型,Weaver等的非线性 模型)和随机网络模型(probabilistic Boolean network model, PBN 模型), 定量网络模型和定性网络模型等。 几种典型的模型:布尔网络模型、线性组合模型和加权矩阵模型、互 信息关联模型、贝叶斯网络模型、微分方程模型。 基因网络实际应用: 发现新基因,寻找和发掘基因新功能; 认识和研究复杂的生命现象; 识别治病因子和病变基因; 基因诊断和基因治疗。
The flow diagram of the stochastic searching algorithm
An example of inferred causal gene and its associated regulatory network.
3. 植物基因网络
3.1 基于转录组的基因网络
阻遏(repression):是指在特定环境因素刺激下,基
因被抑制,从而使基因的表达产物减少。这类基因称为可阻遏基因。 色氨酸 —色氨酸合成酶系
3、协调表达
在一定机制控制下,功能相关的一组基因,协调一致,共同表达。
基因表达的调控方式
2. 遗传基因组学简介
遗传基因组学概念
2001年,Janson & Nap提出了遗传基因组学(genetical genomics)的概念:将全基因组中的每个基因的mRNA表达量作为 数量性状,对其进行QTL定位分析,即基因表达的数量性状定位分析 技术(expression QTL, eQTL),又叫遗传基因组学。
Jansen & Nap. 2001. Trends Genet.
eQTL的实质
eQTL以一个分离群体中不同个体(基因型)或者是有其它遗传结构的 群体作为样本,运用QTL分析方法分析特定基因转录丰度差异而得到 的一些遗传区域,转录丰度用于作为个体中基因表达水平的衡量方式, 并且作为一个性状来分析(eTrait),就像其它的表型性状(pTrait), 例如植株高度和产量一样。
MYC-特异子网络(human B cells)
DIwk.baidu.com4-子调控网络(拟南芥)
Basso et al. 2005. Nat Genet.
Ma et al. 2007. Genome Res.
3.2 genome-scale 基因网络
近年来,研究获得了大量的植物基因组范围的数据中,随之获得的成 果让人印象深刻。运用转录组、ChIP、蛋白组和代谢组数据重建调 控网络和生物途径,随后用于推断基因、蛋白和代谢物间的功能相互 关系。
基因表达谱构建基因调控网络方法流程图
以拟南芥为例
一些研究检测了拟南芥几十种不同条件下,不同组织和发 育时期的转录组。这些研究使植物基因调控网络构建向前 迈进了一大步。 拟南芥根细胞特异转录本和茎尖分生组织转录本为研究对 象,开始揭示基因表达型。
利用拟南芥根的代表不同发育时期的13个纵切面的转录 本,构建了时空表达图。水稻中也有相似实验,40种不 同时期的细胞构建转录本地图,为组织水平特殊网络调控 构建提供了有价值的信息。
贝叶斯网络分析(Bayesian network)
一类结构和参数未定的有向无圈图(directed acyclic graphs),由 节点和连接节点的有向边构成。节点随机变量可以是任何不确定对象 的数学抽象;节点间边(由父节点指向其后代节点)反应了两代间的因 果关系,关系的强弱用条件概率分布进行量化。对于无父节点的起始
网络构建步骤
首先进行表达数据采集,表达模式分析。大规模基因表达 谱数据分析方法: 1,聚类分析(Clustering analysis),最广泛使用的方法; 2,主成份分析(PCA),为简化表达谱中的大量的变量 简化研究,用较少的综合性变量代替原来众多的相关 性变量; 3,基于知识挖掘的机器学习方法; 4,可视化。 然后,分析基因相互关系。一般统计分析框架有非线性多 元预测和从表达数据学习网络。 最后,建立基因表达调控网络。
然而,仍需要建立精密的系统研究方法,用于整合各个“组学”数据, 将多种多样的大量数据整合到条理清晰的模型中,增进我们对生物进 程的分子网络基础了解。
蛋白组和代谢组
蛋白组学Proteomic:使用Mass Spectometry (MS) 方法,profile蛋白组、磷酸蛋白组或质膜蛋白组, 代谢组学Metabolomic :使用MS或核磁共振来profile 全植株、组织、细胞或器官的代谢物。 蛋白组学和代谢组学结合转录组研究,显示拟南芥中蛋白 富集是在转录水平调控的。 与转录网络相似,蛋白和代谢网络也可以用边和节点来构 建。蛋白网络中,节点表示蛋白,边表示蛋白间互作或者 功能修饰;代谢网络中,节点代表代谢物,边代表酶反应 或生化。 代谢组展示生化网络,不能像转录组网络一样通过相关性 分析整合入未知的代谢物。替代方案是结合QTL和代谢物 profiling重头构建网络模型。
Cis- & trans- 调控
根据eQTL定位到的区间与转录物在染色体上的 相对位置,将eQTL分为顺式eQTL(cis-eQTL)和 反式eQTL(trans-eQTL)。
Druka et al. 2010. Plant Biol J
cis-eQTL:指假定控制转录水平的变异序列是由在这个基 因内部或者在这个基因附近的序列变异所决定的。最经典 的例子就是这个DNA序列本身的改变。因此,一个ciseQTL可能与目的基因位置重合。 trans-eQTL:检测到的eQTL与目的基因位置不重合,说 明检测到的eQTL代表一个能够控制目标基因表达的基因 座的位置。trans-eQTL的基因假定编码的是反式作用因 子,比如与其它基因顺式元件结合的关键蛋白,从而控制 他们的mRNA表达。因此,一个trans-eQTL可能代表控 制一个独立的目标基因或者一些相关功能基因表达的转录 因子的位点。 事实上,目标基因的表达可以由cis-和trans-作用元件结 合控制。
基因表达的时空特异性
时间特异性(temporal specificity) 某一基因的表达严格按特定的时间顺序发生。 空间特异性(spatial specificity) 在个体生长全过程,某种基因产物在个体按不同组织空 间顺序出现
基因表达的方式
1、组成型表达(constitutive gene expression)
trans-acting位点与转录因子
许多报道中鉴定的trans-acting位点并不编码转录因子。酵母中鉴 定的eQTLs经常是产生于改变信号通路或代谢途径的遗传变异。 实际上,转录因子也只是"偶然性"的定位于trans-eQTLs,而且差异 基因表达也很少可以用转录因子序列变异来解释。 果蝇研究表明转录因子表达型进化上非常保守,而且启动子区比其他 基因组区域多态性相对要少,说明它们与trans-acting变异没有必 然的关系。 对实验室培养的280代突变富集的秀丽隐杆状线虫全基因组基因表达 分析,9%编码信号分子和转录因子的基因差异表达,而野生型线虫 转录变异较小,仅2%。 综上所述,自交系和异交群体均缺少序列变异,限制了转录因子导致 的trans-eQTLs的数目。 由于转录因子通常是大的调控网络的一部分,trans-eQTL对基因表 达的影响可能被其他trans-作用因子的补偿性作用而掩盖。
LOGO
基因表达调控 和基因网络
徐晓洋
1
基因表达调控
2
遗传基因组学简介
3
植物基因网络
1. 基因表达调控
中心法则(the central dogma):
RNA 复制 复制 转录
DNA
逆转录
RNA
翻译
蛋白质
基因表达(gene expression)--基因转录及翻译的过程。 •rRNA、tRNA的合成属于基因表达
参考文献:Inferring Signaling and Gene Regulatory Network from Genetic and Genomic Information
Identifying Signaling and Regulatory Paths
Overview of the procedures for causal gene identification and regulatory pathway
节点,则用先验概率分布表达信息。
贝叶斯网络基于贝叶斯定理,通过数据去研究网络的结构和参数。这
里,不同的研究方法反应了算法的智能化水平,是研究的关键点所在,
一旦得到最佳的贝叶斯网络,就可以用之去推断许多感兴趣的问题。
许多此类网络的构建不仅需要基因的表达信息,还需 要TFs和cis调控基本模式的信息来推测基因之间的因 果关系。 鉴于植物中关于TFs和cis调控基本模式的信息有限, 适用于人类基因调控网络构建的方法,在植物中很难 得到有意义的结果。 尽管如此,模式植物拟南芥中也建立了一些网络。 Ma(2007)应用基于部分相关的改良绘图的高斯模型, 建立网络图,成功的推论出与代谢功能和胁迫应答相 关的子网络,具有应用于预测新基因功能的潜力。
因果关系推测
通常,eQTL内有很多基因,这使得确定引起目标基因表 达变化的主效基因变的十分困难。即使某个eQTL内仅有 几个基因,主效基因也被确定,主效基因通过怎样的机制 调节目标基因的表达仍然不清楚。 为了解决这个问题, Tu Zhidong 研究出两套算法: I: Identifying Signaling and Regulatory Paths II: Constructing De Novo Causal Networks