转录调控的信息学分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(二)位置频率矩阵(position frequency matrix )
位置频率矩阵可以反映出每个位置上不同
consensus→ 碱基出现的概率。
logo→
consensus→
frequency matrix →
logo→
frequency matrix →
该模型的一个前提假设是各个位置上碱基
Remove redundancy MatCompare; Motifclass; MatrixREDUCE MARSMotif-M; …..
Search Motif Database
transcription factors
(一)获得靶向序列
1. 从基因差异表达谱芯片数据出发获得启动
子序列 。利用NCBI上相关核酸数据库选取 转录起始位点附近1000~2000 bp的长度作 为启动子区 2. 从差异表达蛋白质数据出发获得启动子序 列 。从SWISS-PROT和NCBI等数据库中获得 编码基因的启动子区 3. 从ChIP-chip和ChIP-seq数据出发获得结合 位点序列 。
MotifRegressor
MarsMotif-M Motif search Database TRANSFAC Jaspar DBTBS TRED
http://www.math.umass.edu/~conlon/mr.html
http://rulai.cshl.edu/software/index1.htm http://www.gene-regulation.com/ http://jaspar.cgb.ki.se/ http://dbtbs.hgc.jp/ http://rulai.cshl.edu/cgi-bin/TRED/tred.cgi?process=home
(Science. 2000, 290(5500): 2306-2309 )
特点: ChIP和芯片技术的联合运用
全基因组范围内的定位分析
靶基因群的高通量分析
不足之处:
成本较高 结果分析的标准化尚待完善 分辨率较低,大于200 bp
基因芯片是 “封闭系统”, 只能检测已知序
Motif discovery
YMF; MEME;MDScan; DME; ……
phylogenetic pootprinting
PhyMe; PhyloGibbs; PhyloCon; ……
cis-regulatory module
CisModule; Gibbs Module Sampler; EMCModule; ……
第十一章 转录调控的信息学分析
Bioinformatic Analysis of Transcriptional Regulation 汕头大学医学院 许丽艳
学 习 提 纲

重点:
转录因子结合位点的识别及其定位的基本 概念和表示方法

转录因子结合位点识别的操作步骤和相关
算法的使用
转录因子结合位点定位预测软件的使用
http://rulai.cshl.edu/software/index1.htm http://dir.nhlbi.nih.gov/papers/lmi/epigenomes/sissrs/ http://edsc.rockefeller.edu/cgi-bin/phyme/download.pl http://www.imsc.res.in/~rsidd/phylogibbs/ http://www.stat.ucla.edu/~zhou/CisModule/ http://www.bios.unc.edu/~gupta/emcmodule.html http://bussemaker.bio.columbia.edu:8080/reduce/ http://bussemaker.bio.columbia.edu/software/MatrixREDUCE/
一、ChIP技术
创立者:
20世纪80年Leabharlann Baidu末
Alexander Varshavsky等人
(Cell. 1988,53(6): 937-947 )
基本实验过程: 甲醛交联,稳定蛋白质-DNA复合物 裂解细胞,分离蛋白质-DNA复合物 加入特异性抗体,沉淀蛋白质-DNA复合物 去交联,纯化DNA 应用PCR技术,特异性扩增目的DNA片段
学 习 提 纲

难点:
算法的使用
转录因子结合位点识别的操作步骤和相关

熟悉:
转录调控相关数据库
第一节 引
Introduction

一 、基因转录调节的基本模式
transcription factor
cis-regulatory element
二、 基因转录调节机制的研究方法
实验方法:

三、ChIP-seq技术
创立者:
特点:
2007年,Steven J.M. Jones等人
(Science. 2000, 290(5500): 2306-2309 )
染色质免疫沉淀后的DNA,直接进行高通量测序 是一个“开放系统”。它可以检测更小的结合区段、
未知的结合位点、结合位点内的突变情况和蛋白亲 合力较低的区段 无需多次重复实验,极大提高了工作效率
3. 顺式调控模块识别方法 CisModule、Gibbs Module Sampler和 EMCModule 方法 4. 基于启动子区重要性差异的识别算法 MDScan和DME 算法 5. SISSRs算法
(三)处理识别结果 1. 去冗余及质量控制
Motifclass法
2. 通过回归分析寻找特定条件下起作用的模体
consensus→
logo→
logo→
frequency matrix →
将能与同一个转录因子结合的所有DNA 片段
按照对应位置进行排列,在每个位置上选择 最可能出现的碱基,就组成了该转录因子结 合位点的共有序列。
共性序列中用A、C、G、T 之外的字母来表
示结合位点中各个位置上可能出现的碱基组
三、转录因子结合位点的定位
基本概念: 根据若干已知的转录因子结合位点 的模体,在所研究基因的启动子区域内搜 索相应转录因子可能的结合位点,称之为 转录因子结合位点的定位
(一)转录因子结合位点定位的计算方法
位置权重矩阵
对任一长度为n的已知模体位置频率矩阵M,
转录因子结合位点定位就是判断某一长度为n 的序列片段与M 的匹配程度。考虑到DNA序列 本身有可能存在碱基组成上的偏向性,通常把 位置频率矩阵转换为位置权重矩阵 。
出现的倾向性和整个模体的序列的一致性。
consensus→
logo→
frequency matrix →
二、转录因子结合位点的识别
基本概念: 通过收集可能被同一转录因子调控的基因启
动子序列,在其中寻找具有统计显著性的短
片段,作为转录因子可能的结合位点,称之
为转录因子结合位点的识别
基本流程 : 收集可能被同一转录因子调控的多基因序列 通过多种计算方法从不同角度或不同层面去
(二)转录因子结合位点识别的计算方法
1. 单个模体预测算法
基于共有序列的识别方法: MobyDick和
YMF算法 基于位置频率矩阵的识别方法: MEME 和 Gibbs Motif Sampler算法
2. 比较基因组学
遗传系谱印记法: PhyMe、PhyloGibbs
和PhyloCon 等方法
成本低,周期短,省去了标记和杂交等步骤,并且 分辨率可提高到30~50bp
第 三 节 转录因子结合位点的 信息学预测方法
Prediction of Transcriptional Factor Binding sites
一、转录因子结合位点的的表示方法
consensus→
(一)共性序列(consensus sequence)
REDUCE 算法:以模体出现的次数作为自变量
来进行简单线性回归
MatrixREDUCE算法:用位置频率矩阵的打分作
为自变量进行回归
MARSMotif-M算法:多变量适应回归模型
转录因子结合位点分析可利用网络资源
Category Single motif discovery Program MobyDick YMF Consensus MEME Gibbs Sampler URL http://genome.ucsf.edu/mobydick/ http://bio.cs.washington.edu/software.html http://ural.wustl.edu/software.html http://meme.sdsc.edu/meme/intro.html http://bayesweb.wadsworth.org/gibbs/gibbs.html
荧光素酶报告基因(luciferase report gene)
凝胶迁移(electrophoreticmobility shift assays)
染色质免疫沉淀(ChIP)
DNase 足迹法(DNase footprinting)
信息学分析
第二节
转录调控的高通量实验测定
High-throughput Techniques in Transcriptional Regulation Analysis
进行计算、评估和分析,尽可能地屏蔽掉冗 余序列和噪音序列,寻找出具有统计显著性 的短片段,作为转录因子可能的结合位点
查询相关转录因子数据库,以确定转录因子
基本流程
cDNA chip ChIP-chip ChIP-seq 2-D PAGE-MS
>seq-1 TTAACCTCTTATCTCTCCCCAAGATCCCTGAAGCCAGGTACGAGCAAGATGAGAGTGGGTTATCTCTGGA >seq-2 TCCTGTAGTGGGCATTCCAGGAGCAGAATGGCGTCATAATTCATTTACTCTATAAGTCAGAGAGAAAAAT ∙∙∙∙ >seq-n TATGTGGTTATTAAATGTTAAGGAGATGCAGAGTAGGGTAAATTGTTTATCTGAGAGGCTGGGCTTAGGA
出现的概率相互独立。 矩阵每一列表示模体相应位置上四种碱基 出现的概率。 对于长度为n的模体,碱基i(i={A, C, G, T})在模体第j 个位置上出现的频率为q i,j,则整个模体用矩阵M表示如下:
q A,1 q A,2 ∙∙∙ q A,n q C,1 q C,2 ∙∙∙ q C,n
G,1
合,这些字母称为IUPAC 简并码。
共性序列的表示方法简明易懂,却不能够反
映每个位置上不同碱基出现的概率。
IUPAC简并码
IUPAC code Nucleotide IUPAC code Nucleotide W A or T B C,G or T R A or G D A,G or T K G or T H A,C or T S C or G V A,C or G Y C or T N A,C,G or T M A or C
MDScan
DME SISSRs Comparative genomics PhyMe PhyloGibbs Cis-module analysis CisModule EMCModule Regression methods REDUCE MatrixREDUCE
http://ai.stanford.edu/~xsliu/MDscan/
特点: 针对某一特定候选转录因子,是否特异性
结合于所调节的靶基因某一预定区域内,
如启动子区,进行检测。
对同一DNA底物, 可以运用多种不同的抗体,
分别进行免疫共沉淀,以确定多种结合蛋白
在同一染色质片段上的结合。
二、ChIP-chip技术
创立者:
2000年,Richard A. Young等人
M= q
q G,2 ∙∙∙ q G,n
q T,1 q T,2 ∙∙∙ q T,n
(三)序列标识图(sequence logo)
序列标识图依次绘出模体中各个位置上出现的
碱基,每个位置上所有碱基的高度和反映了该 位置上碱基的一致性,每个碱基字母的大小与 碱基在该位置上出现的频率成正比。
这种表示方法直观地给出模体各个位置上碱基
相关文档
最新文档