11转录调控的信息学分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

logo→
frequency matrix →
一、转录因子结合位点的的表示方法
(一)共有序列(consensus sequence)

将能与同一个转录因子结合的所有DNA 片段按照对应位置进 行排列,在每个位置上选择最可能出现的碱基,就组成了该
转录因子结合位点的共有序列。

共有序列中用A、C、G、T 之外的字母来表示结合位点中各个 位置上可能出现的碱基组合,这些字母称为IUPAC 简并码。
MDScan和DME 算法
5. SISSRs算法
二、转录因子结合位点的识别
(三)处理识别结果
1. 去冗余及质量控制
Motifclass法
2. 通过回归分析寻找特定条件下起作用的模体

REDUCE 算法:以模体出现的次数作为自变量来进行简单线性回归 MatrixREDUCE算法:用位置频率矩阵的打分作为自变量进行回归 MARSMotif-M算法:多变量适应回归模型

基于位置频率矩阵的识别方法: MEME 和Gibbs Motif Sampler算法
2. 比较基因组学

遗传系谱印记法: PhyMe、PhyloGibbs和PhyloCon 等方法
3. 顺式调控模块识别方法
CisModule、Gibbs Module Sampler和EMCModule 方法
4. 基于启动子区重要性差异的识别算法
Immunoprecipitate and purify imminocomplexes
Reverse cross-links and purify DNA Input DNA
No DNA
c-Jun
PCR
c-Fos Target gene Negative control
ChIP- PCR
Sp1
IgG
二、ChIP-chip技术
创立者: 2000年,Richard A. Young等人 特点:

ChIP和芯片技术的联合运用
全基因组范围内的定位分析
靶基因群的高通量分析
不足之处:

成本较高 结果分析的标准化尚待完善 分辨率较低,大于200 bp 基因芯片是 “封闭系统”, 只能检测已知序列
创立者:上世纪八十年代末,Alexander Varshavsky等人 基本实验过程:

甲醛交联,稳定蛋白质-DNA复合物 裂解细胞,分离蛋白质-DNA复合物


加入特异性抗体,沉淀蛋白质- DNA复合物
去交联,纯化DNA 应用PCR技术,特异性扩增目的DNA片段
特点:

针对某一特定候选转录因子,是否特异性结合于所调节的靶基 因某一预定区域内,如启动子区,进行检测。 对同一DNA底物, 可以运用多种不同的抗体, 分别进行免疫共 沉淀,以确定多种结合蛋白在同一染色质片段上的结合。
BIOINFORMATIC ANALYSIS OF TRANSCRIPTIONAL REGULATION
第 一 节 引 言
一 、基因转录调节的基本模式
transcription factor
cis-regulatory element
二、 基因转录调节机制的研究方法
实验方法:

荧光素酶报告基因(luciferase report gene)

二、转录因子结合位点的识别
基本概念:

通过收集可能被同一转录因子调控的基因启动子序列,在其中寻找具 有统计显著性的短片段,作为转录因子可能的结合位点,称之为转录
因子结合位点的识别
基本流程 :

收集可能被同一转录因子调控的多基因序列

通过多种计算方法从不同角度或不同层面去进行计算、评估和分析,
Motif discovery
YMF; MEME;MDScan; DME; ……
phylogenetic pootprinting
PhyMe; PhyloGibbs; PhyloCon; ……
cis-regulatory module
CisModule; Gibbs Module Sampler; EMCModule; ……
q A,1 q A,2 ∙∙∙ q A,n
M= q
q C,1 q C,2 ∙∙∙ q C,n
G,1
q G,2 ∙∙∙ q G,n
q T,1 q T,2 ∙∙∙ q T,n
一、转录因子结合位点的的表示方法
(三)序列标识图

序列标识图依次绘出模体中各个位置上出现的碱基,每个位 置上所有碱基的高度和反映了该位置上碱基的一致性,每个 碱基字母的大小与碱基在该位置上出现的频率成正比。 这种表示方法直观地给出模体各个位置上碱基出现的倾向性 和整个模体的序列的一致性。
2.
从差异表达蛋白质数据出发获得启动子序列 。从SWISS-PROT和 NCBI等数据库中获得编码基因的启动子区
3.
从ChIP-chip和ChIP-seq数据出发获得结合位点序列 。
二、转录因子结合位点的识别
1. 单个模体预测算法

(二)转录因子结合位点识别的计算方法
基于共有序列的识别方法: MobyDick和YMF算法
尽可能地屏蔽掉冗余序列和噪音序列,寻找出具有统计显著性的短 片段,作为转录因子可能的结合位点

查询相关转录因子数据库,以确定转录因子
基本流程
cDNA chip ChIP-chip ChIP-seq 2-D PAGE-MS
>seq-1 TTAACCTCTTATCTCTCCCCAAGATCCCTGAAGCCAGGTACGAGCAAGATGAGAGTGGGTTATCTCTGGA >seq-2 TCCTGTAGTGGGCATTCCAGGAGCAGAATGGCGTCATAATTCATTTACTCTATAAGTCAGAGAGAAAAAT ∙∙∙∙ >seq-n TATGTGGTTATTAAATGTTAAGGAGATGCAGAGTAGGGTAAATTGTTTATCTGAGAGGCTGGGCTTAGGA
Cross-link whole cells with formaldehyde Isolate genomic DNA
sequencing
Region sequenced
ChIP- seq
Sonicate DNA to produce sheared, soluble chromtin
பைடு நூலகம்
Add proteinspecific antibody Amplify DNA and Label ChIP- chip Hybridize to arrays

共有序列的表示方法简明易懂,却不能够反映每个位置上不
同碱基出现的概率。
一、转录因子结合位点的的表示方法
IUPAC简并码
IUPAC code
W R K
Nucleotide
A or T A or G G or T
IUPAC code
B D H
Nucleotide
C, G or T A, G or T A , C or T
分辨率可提高到30-50bp。

第 三 节 转录因子结合位点的信息学预测方法
一、转录因子结合位点的的表示方法
(一)共有序列(consensus sequence) (二)位置频率矩阵(position frequency matrix) (三)序列标识图(sequence logo)
consensus→
S
Y M
C or G
C or T A or C
V
N
A, C or G
A, C, G or T
一、转录因子结合位点的的表示方法
(二)位置频率矩阵


位置频率矩阵可以反映出每个位置上不同碱基出现的概率。
该模型的一个前提假设是各个位置上碱基出现的概率相互独立。 矩阵每一列表示模体相应位置上四种碱基出现的概率。 对于长度为n的模体,碱基i(i={A, C, G, T})在模体第j 个位置上出现 的频率为q i,j,则整个模体用矩阵M表示如下:
三、转录因子结合位点的定位
基本概念:
根据若干已知的转录因子结合位点的模体,在所研究基因的 启动子区域内搜索相应转录因子可能的结合位点,称之为 转录因子结合位点的定位
(一)转录因子结合位点定位的计算方法:位置权重矩阵

对任一长度为n的已知模体位置频率矩阵M,转录因子结合位点定
位就是判断某一长度为n 的序列片段与M 的匹配程度。考虑到 DNA序列本身有可能存在碱基组成上的偏向性,通常把位置频率
转录因子结合位点分析可利用网络资源
Category Single motif discovery Program MobyDick YMF Consensus MEME Gibbs Sampler MDScan DME SISSRs Comparative genomics PhyMe PhyloGibbs Cis-module analysis CisModule EMCModule Regression methods REDUCE MatrixREDUCE MotifRegressor MarsMotif-M Motif search Database TRANSFAC Jaspar DBTBS TRED URL http://genome.ucsf.edu/mobydick/ http://bio.cs.washington.edu/software.html http://ural.wustl.edu/software.html http://meme.sdsc.edu/meme/intro.html http://bayesweb.wadsworth.org/gibbs/gibbs.html http://ai.stanford.edu/~xsliu/MDscan/ http://rulai.cshl.edu/software/index1.htm http://dir.nhlbi.nih.gov/papers/lmi/epigenomes/sissrs/ http://edsc.rockefeller.edu/cgi-bin/phyme/download.pl http://www.imsc.res.in/~rsidd/phylogibbs/ http://www.stat.ucla.edu/~zhou/CisModule/ http://www.bios.unc.edu/~gupta/emcmodule.html http://bussemaker.bio.columbia.edu:8080/reduce/ http://bussemaker.bio.columbia.edu/software/MatrixREDUCE/ http://www.math.umass.edu/~conlon/mr.html http://rulai.cshl.edu/software/index1.htm http://www.gene-regulation.com/ http://jaspar.cgb.ki.se/ http://dbtbs.hgc.jp/ http://rulai.cshl.edu/cgi-bin/TRED/tred.cgi?process=home
三、ChIP-seq技术
创立者: 2007年,Steven J.M. Jones等人率先提出的 特点:

染色质免疫沉淀后的DNA,直接进行高通量测序。 是一个“开放系统”。它可以检测更小的结合区段、未知的结 合位点、结合位点内的突变情况和蛋白亲合力较低的区段。

成本低,周期短,省去了标记和杂交等步骤,并且勿需多次重 复实验,极大提高了工作效率。


凝胶迁移(electrophoreticmobility shift assays)
染色质免疫沉淀(chromosome immunopreciation,ChIP) DNase 足迹法(DNase footprinting)
信息学分析
第 二 节 转录调控的高通量实验测定
一、ChIP技术
Remove redundancy MatCompare; Motifclass; MatrixREDUCE MARSMotif-M; …..
Search Motif Database
transcription factors
二、转录因子结合位点的识别
(一)获得靶向序列
1.
从基因差异表达谱芯片数据出发获得启动子序列 。利用NCBI上相关 核酸数据库选取转录起始位点附近1000~2000 bp的长度作为启动子区
相关文档
最新文档