【生物信息学第二版】转录调控的信息学分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参数设定页面,可直接
输入序列,或Ensembl Gene ID;设定P-值等 参数,提交进行分析
3. bootstrapping算法(自助抽样法)
芬兰赫尔辛基大学的Kankainen,M. 和 Holm,L.建立。 用自助抽样法(bootstrapping),结合方差F-值
(ANOVA F-statistics)和 Tukey’s 检验 及P-值分析, 建立了POCO程序。
consensus→
logo→
frequency matrix →
二、转录因子结合位点的定位
基本概念
根据若干已知的转录因子结合位点(TFBS)的模
体(motif),在所感兴趣基因的启动子区域内搜 索相应转录因子可能的结合位点,称之为转录因子 结合位点的定位。
(一)转录因子结合位点定位的计算方法
frequency matrix →
logo→
frequency matrix →
该模型的一个前提假设是各个位置上碱基出现
的概率相互独立。
矩阵每一列表示模体相应位置上四种碱基出现
的概率。
对于长度为n的模体,碱基i(i={A, C, G, T})在
模体第j 个位置上出现的频率为q i,j,则整个模体 用矩阵M表示如下:
在背景序列中出现的频率(记为bi) 来消除DNA 序列本身碱基组成偏向性的影响。位置权重矩阵 的每一项记为Si,j:
则M 被转换为的位置权重矩阵S为:
对于长度为n 的DNA序列片段,它作为模体M对
应的转录因子结合位点的打分为:
tj 表示相应序列第j 个位置上出现的碱基。给定阈值
T,如果序列片段由上式给出的打分S≥T,则认为它
二、JASPAR数据库
http://jaspar.genereg.net
JASPAR数据库的特点
数据库名称 特点
JASPAR CORE
JASPAR FAM
高质量,非冗余的转录因子数据库,收录了656 个序
列模式,用于寻找特异转录因子模型或其结构类型 包含11种转录因子结构类型的模型。用于搜索未知基
consensus→
consensus→
logo→
logo→
frequency matrix →
frequency matrix →
将能与同一个转录因子结合的所有DNA 片段按照
对应位置进行排列,在每个位置上选择最可能出 现的碱基,就组成了该转录因子结合位点的共有
序列。
共有序列中用A、C、G、T 之外的字母来表示结
TRED数据库统计表
相关数据 人类 小鼠 大鼠
版本
mm3: UCSC rn2: UCSC Rat hg15: UCSC Human Mouse GoldenPath Jan. GoldenPath Apr. 03 GoldenPath Feb. 03 03 30981 31683 26064
基因数
1.粘贴序列
2.选择参数
3.开始搜索
4.分析结果
4.分析结果
P-Match - 1.0 Public
P-Match - 1.0 Public 程序运行流程图
2.选择参数
1.粘贴序列
3.提交序列
4. 分析结果
Patch 1.0 程序运行流程图
1.粘贴序列
3.开始分析
2.选择参数
数据库名称 JASPAR CNE 特点 收集了233个人类保守的非编码元件,但是其 生化和生物学功能尚不清楚。用于分析潜在 的增强子。
JASPAR SPLICE
包含有6种人类高度可靠的经典和非经典剪切
位点的矩阵模式。用于分析剪切位点和选择 性剪切
JASPAR PBM JASPAR PBM HOMEO JASPAR PBM HLH
到的motif在不同物种中的保守性,筛除不保守的 motif。
以候选启动子区及其在不同物种中的直系同源序
列为输入序列,在识别过程中考虑不同物种间的
保守性和motif的信号强度这两种因素。
CORE-TF运 行流程图
http://www.LGTC.nl/CORE_TF
打钩,确认是非盈利性,进入下一页
收集可能被同一转录因子调控的多基因序列。 通过多种计算方法从不同角度或不同层面去进行计
算、评估和分析,尽可能地屏蔽掉冗余序列和噪音 序列,寻找出具有统计显著性的短片段,作为转录 因子可能的结合位点 。
查询相关转录因子数据库,以确定转录因子。
(一)获得靶向序列
1.从基因差异表达谱芯片数据出发获得启动子序列 。
4.分析结果
MatrixCatch 2.7 程序运行流程图
1.粘贴序列
2.选择参数
3.开始搜索
4.分析结果
三、转录因子结合位点的识别
基本概念
通过收集可能被同一转录因子调控的基因启动子序
列,在其中寻找具有统计显著性的短片段,作为转
录因子可能的结合位点,称之为转录因子结合位点 的识别。
基本流程
位置权重矩阵
对任一长度为n的已知motif位置频率矩阵M,转
录因子结合位点定位就是判断某一长度为n 的序
列片段与M 的匹配程度。考虑到DNA序列本身有 可能存在碱基组成上的偏向性,通常把位置频率 矩阵转换为位置权重矩阵 。
用位置权重矩阵的打分来衡量motif与任意给定序
列的匹配程度。
在位置权重矩阵中,引入碱基i(i={A,C,G,T})
保存有104种小鼠转录因子矩阵模式 保存有176种小鼠同源结构域矩阵模式 保存有19种线虫碱性螺旋环螺旋(bHLH)转 录因子模型
利用选定的转录因子搜 索特定的核苷酸序列
利用选定的转录因子搜索特定的核苷酸序列
利用选定的转录因子搜索特定的核苷酸序列
三、TRED数据库
http://rulai.cshl.edu/TRED
A,G or T
K
S Y
G or T
C or G C or T
H
V N
A,C or T
A,C or G A,C,G or T
M
A or C
(二)位置频率矩阵(position frequency matrix)
consensus→
位置频率矩阵可以反映出每个位置上不同碱基出
现的概率。
logo→
consensus→
(三)序列标识图(sequence logo)
序列标识图依次绘出模体中各个位置上出现的碱基,
每个位置上所有碱基的高度和反映了该位置上碱基 的一致性,每个碱基字母的大小与碱基在该位置上 出现的频率成正比。
这种表示方法直观地给出模体各个位置上碱基出现
的倾向性和整个模体的序列的一致性。
转录因子结合位点的三种表示方法总结
染色质免疫沉淀(ChIP) DNase 足迹法(DNase footprinting)
信息学分析
第二节
转录因子结合位点的 信息学预测方法
(Prediction of Transcriptional
Factor Binding sites)
一、转录因子结合位点的表示方法
(一)共有序列(consensus sequence)
转录因子家族 ERG(ets-related gene) ETS(ETS-domain transcription factor) FLI1(friend leukemia integration site1) 人类 21/21 445/412 41/41 小鼠 5/5 207/196 17/16 大鼠 0/0 51/51 0/0
生物信息学
生物信息学
第八章
转录调控的信息学分析
汕头大学医学院 许丽艳
学习提纲
重点
转录因子结合位点的识别及其定位的基本概念 和表示方法 转录因子结合位点识别的操作步骤和相关算法 的使用
转录因子结合位点定位预测软件的使用
学习提纲
难点
转录因子结合位点识别的操作步骤和相关算 法的使用
熟悉 转录调控相关数据库
2.从差异表达蛋白质数据出发获得启动子序列 。
3.从ChIP-chip和ChIP-seq数据出发获得结合位点序列 。
DAVID操作界面
基因ID转换流程
① ⑤ ④
② ③
基因ID转换流程
⑥
UCSC操作界面及获取基因启动子区序列流程
①
②
③
④
⑤
⑥
(二)转录因子结合位点识别的预测
1. 单个motif预测算法
转录因子家族 AP1(Activator Protein 1) AP2(Activator Protein 2) 人类 432/383 338/318 小鼠 217/190 123/123 大鼠 157/143 90/86
AR(Androgen Receptor)
ATF(Activating Transcription Factor) BCL(B-cell CLL/lymphoma)
335/325
224/220 1593/13 29 120/111 47/41 169/152
152/134
138/133 141/127 67/55 15/13 40/39
wenku.baidu.com
241/179
95/93 11/11 33/26 6/6 32/31
与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数
第一节
引言
(Introduction)
一、基因转录调节的基本模式
transcription factor
cis-regulatory element
基因转录调节模式图
二、基因转录调节机制的研究方法
实验方法
荧光素酶报告基因(luciferase report gene)
凝胶迁移(electrophoreticmobility shift assays)
69/49
189/173 21/19
19/19
59/59 15/15 4/4
24/15
26/26 0/0 0/0
BRCA(breast cancer susceptibility protein) 20/20
与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数
转录因子家族 人类 小鼠 大鼠
CEBP(CCAAT/enhancer binding protein
因组序列某一转录因子家族的共有模式和鉴定新模
式的分类 JASPAR PHYLOFACTS JASPAR POLII 由174种系统发育中保守的基因上游调控元件组成。 用于分析启动子的组织特异性 保存了13种与RNA聚合酶II核心启动子连接的DNA 模型。用于分析潜在的核心启动子
JASPAR数据库的特点
合位点中各个位置上可能出现的碱基组合,这些 字母称为IUPAC 简并码。
共有序列的表示方法简明易懂,却不能够反映每
个位置上不同碱基出现的概率。
IUPAC简并码 IUPAC code Nucleotide IUPAC code Nucleotide
W
R
A or T
A or G
B
D
C,G or T
CREB (cAMP responsive element binding protein) E2F (E2F transcription factor) EGR(early growth response protein) ELK(member of ETS oncogene family) ER(Estrogen Receptor)
基于共有序列的识别方法: MobyDick和YMF算法。
基于位置频率矩阵的识别方法: MEME 和Gibbs
Motif Sampler算法 。
MEME 操作界面及输出结果举例
结果展示
位置打分
模块图解
位点特异概率矩阵 共有序列
模块
位点特异打分矩阵
2.比较基因组学
先利用传统的方法进行motif识别,然后再检测得
有可能是相应转录因子的结合位点。
应用位置权重矩阵预测潜在结合位点
(二)转录因子结合位点定位的预测
TRANSFAC http://www.gene-regulation.com/index2.html
AliBaba
P-Match Patch
MatrixCatch
AliBaba2.1 程序运行流程图
启动子数
58229
50764
30386
461个基因, 1132 个启动子, 150个 结合模体
3409 个基因, 9085 个 1126个基因, 转录因子有效 启动子, 1249 个结合 3089个启动子, 靶点 模体 366个结合模体 同源组数 (两种或三种) 23471
与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数
分析两组不同表达模式基因群的差异TF。
POCO运 行界面及
部分输出
结果展示
http://ekhidna.
biocenter.helsi
nki.fi/poco
第三节
转录调控相关数据库
Transcriptional Regulation Databases
一、TRANSFAC数据库
http://www.gene-regulation.com/index2.html