实验三基因组序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
44
外显子对应于 基因组上的 起始/结束位置
外显子对应于 mRNA/cDNA上的 起始/结束位置
供体、受体位点
外显子 序号
外显子 一致性
长度
百分比
错配和gap
45
序列联配结果
46
作业
1. 使用NCBI ORF Finder 识别检索号为L03845的可读框。写下 拟南芥phyA序列最长的ORF的起止区间,并粘贴此ORF编码的 蛋白质序列的Fasta文件
显中 子间
及 末 端 外
终止碱基 打分
PolyA位点
长度
23
3. FGENESH的使用及结果分析
24
3. FGENESH的使用及结果分析
25
二. 原核和真核生物基因转录起始位点上游 区结构
原核生物
-35
TTGAC A
-10
TATAAT
mRNA +1
A
真核生物
增强子
-110
GC区
-40
CAAT区
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析
AC002390.1
输入基因组序列 或序列数据库号
42源自文库
判断用于分析的序列间的差异, 并调整比对参数
比对阈值
选择物种
输入相似mRNA序列
不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb
输出格式
43
第一条蓝色序列为 基因组序列,橘黄 色为外显子
15
1. ORF Finder的使用及结果分析
16
1. ORF Finder的使用及结果分析
17
1. ORF Finder的使用及结果分析
18
1. ORF Finder的使用及结果分析
19
选择物种 2. Genscan的使用及结果分析
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列
Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCA TGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGAT GCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGA CCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGAC CTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATG ACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGA TTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCAT CGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGT TGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC
基因与蛋白质组学数据分析
实验三:基因序列分析
复旦大学
实验项目三:基因序列分析
一、 实验目的和要求:
– 掌握基因可读框的识别; – 掌握启动子区域的预测 – 掌握CpG岛的预测 – 掌握转录终止信号的预测 – 采用mRNA序列预测基因:Spidey的使用 – 掌握各预测服务器结果的分析
2
原核生物基因结构
NCBI开发的在线预测程序 用于mRNA序列同基因组序列比对分析
40
41
Spidey序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
-25
TATAAT
mRNA +1
PyAPy
上游启动子元件,UPE
核心启动子元件 转录起始 位点
26
原核生物 真核生物
27
二. 启动子预测
输入序列的Fasta文件
28
启动子预测结果
从预测结果可知,预测的启动子区 在32564至32783之间,启动子阈值 系 统 默 认 为 53.00 , 预 测 的 启 动 子 分 值 为 84.69 , 高 于 阈 值 , 分 值 越 高,说明预测的准确性大。与该启 动子可能结合的转录因子如下所示
intron
intergenic region exon
gene 1
gene 2
gene 3
6
7
基因预测
一 开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列
• ORF 是潜在的蛋白质编码区
8
9
1. ORF Finder的使用及结果分析
转录终止信号:GC rich二重对称区、UUUUUU
5’ RNA
UUUUUUUUU 3’
C-G C-G G-C G-C U-A G-C G-C C-G G-C
33
34
35
POLYAH的使用及结果分析
输入序列的Fasta文件
36
POLYAH的使用及结果分析
预测的POLYA位点,LDF为权重
37
29
三 CpG岛预测
CpG岛 CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC, 二者以磷酸酯键相连。 位于真核生物基因转录起始位点上游,GC含>50% ,长度 >200bp CpG岛常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜 索CpG岛可以为基因及其启动子的预测提供线索。
提交序列文件
提交序列
运行GENSCAN
20
2. Genscan的结果分析
基因、
预测单元
外显子 正链、 起始、终
及类型 负链 止及长度
相位
编码 区打 分值
可信概率、 得分值
21
3. FGENESH的使用及结果分析
输入序列的Fasta文件
22
3. FGENESH的使用及结果分析
起始外显子 起始碱基
4. 使用Spidey 对检索号为AF319968的核酸序列进行 分析,标出识别为外显子的区段。
48
实验报告
• 到网络教学平台-基因与蛋白质组学数据分析 B2100029-教学材料-实验课件
• 下载基因与蛋白质组学数据分析实验报告模版 • 将上述问题答案整理到实验报告中,正反打印放在
2张纸上(不超过2张),下次实验课上交。
49
谢谢大家!
复旦大学
结束
复旦大学
2. 使用Genscan对检索号为D17291的序列进行基因预测,标出外 显子区和PolyA位点,用FGENESH对该序列进行预测,写出 预测为外显子的序列区间。并比较两个服务器预测的结果是 否一致,写出二者都预测为外显子的区段。
47
3. 使用CpGPlot, POLYAH, PromoterScan对检索号为 AF319968的核酸序列进行分析,识别序列中的功 能元件,将预测结果(部分)进行截图,标出主 要的结果。
特点: 1 长开放阅读框 2 高基因密度 3 简单的基因结构 4 基因组中GC含量变化非常大
3
真核生物基因结构
特点:1 基因结构复杂 2 具有复杂的基因转录调控方式 3 具有丰富的可变剪接 4 有明显的CpG岛、密码子使用具有 偏好性
4
基因组序列分析
5
例:What is Gene Prediction?
10
1. ORF Finder的使用及结果分析
11
1. ORF Finder的使用及结果分析
12
1. ORF Finder的使用及结果分析
13
1. ORF Finder的使用及结果分析
14
1. ORF Finder的使用及结果分析
Blast比对结果搜索到多个显著相似的序列,故所预测的ORF的可信度较 高。如果要获取该ORF所编码的蛋白质序列,可以点击“Accept”按钮后, 在“1GenBank”的下拉框中选择“3Fasta”,并点击“view”,即可获 取该ORF所编码的蛋白质序列。
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
38
39
mRNA剪切位点识别:spidey
30
输入序列的Fasta文件
31
从该序列的预测结果来看,找到两个CpG岛, 分别位于501-727,长度为227个碱基,5438054691,长度为312
32
四 转录终止信号
加polyA信号:AAUAAA
mRNA前体5’
AAUAAA
CA
GU
3’
成熟mRNA 5’
AAUAAA
CAAAAAAAAAAAAA 3’
外显子对应于 基因组上的 起始/结束位置
外显子对应于 mRNA/cDNA上的 起始/结束位置
供体、受体位点
外显子 序号
外显子 一致性
长度
百分比
错配和gap
45
序列联配结果
46
作业
1. 使用NCBI ORF Finder 识别检索号为L03845的可读框。写下 拟南芥phyA序列最长的ORF的起止区间,并粘贴此ORF编码的 蛋白质序列的Fasta文件
显中 子间
及 末 端 外
终止碱基 打分
PolyA位点
长度
23
3. FGENESH的使用及结果分析
24
3. FGENESH的使用及结果分析
25
二. 原核和真核生物基因转录起始位点上游 区结构
原核生物
-35
TTGAC A
-10
TATAAT
mRNA +1
A
真核生物
增强子
-110
GC区
-40
CAAT区
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析
AC002390.1
输入基因组序列 或序列数据库号
42源自文库
判断用于分析的序列间的差异, 并调整比对参数
比对阈值
选择物种
输入相似mRNA序列
不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb
输出格式
43
第一条蓝色序列为 基因组序列,橘黄 色为外显子
15
1. ORF Finder的使用及结果分析
16
1. ORF Finder的使用及结果分析
17
1. ORF Finder的使用及结果分析
18
1. ORF Finder的使用及结果分析
19
选择物种 2. Genscan的使用及结果分析
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列
Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCA TGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGAT GCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGA CCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGAC CTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATG ACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGA TTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCAT CGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGT TGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC
基因与蛋白质组学数据分析
实验三:基因序列分析
复旦大学
实验项目三:基因序列分析
一、 实验目的和要求:
– 掌握基因可读框的识别; – 掌握启动子区域的预测 – 掌握CpG岛的预测 – 掌握转录终止信号的预测 – 采用mRNA序列预测基因:Spidey的使用 – 掌握各预测服务器结果的分析
2
原核生物基因结构
NCBI开发的在线预测程序 用于mRNA序列同基因组序列比对分析
40
41
Spidey序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
-25
TATAAT
mRNA +1
PyAPy
上游启动子元件,UPE
核心启动子元件 转录起始 位点
26
原核生物 真核生物
27
二. 启动子预测
输入序列的Fasta文件
28
启动子预测结果
从预测结果可知,预测的启动子区 在32564至32783之间,启动子阈值 系 统 默 认 为 53.00 , 预 测 的 启 动 子 分 值 为 84.69 , 高 于 阈 值 , 分 值 越 高,说明预测的准确性大。与该启 动子可能结合的转录因子如下所示
intron
intergenic region exon
gene 1
gene 2
gene 3
6
7
基因预测
一 开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列
• ORF 是潜在的蛋白质编码区
8
9
1. ORF Finder的使用及结果分析
转录终止信号:GC rich二重对称区、UUUUUU
5’ RNA
UUUUUUUUU 3’
C-G C-G G-C G-C U-A G-C G-C C-G G-C
33
34
35
POLYAH的使用及结果分析
输入序列的Fasta文件
36
POLYAH的使用及结果分析
预测的POLYA位点,LDF为权重
37
29
三 CpG岛预测
CpG岛 CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC, 二者以磷酸酯键相连。 位于真核生物基因转录起始位点上游,GC含>50% ,长度 >200bp CpG岛常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜 索CpG岛可以为基因及其启动子的预测提供线索。
提交序列文件
提交序列
运行GENSCAN
20
2. Genscan的结果分析
基因、
预测单元
外显子 正链、 起始、终
及类型 负链 止及长度
相位
编码 区打 分值
可信概率、 得分值
21
3. FGENESH的使用及结果分析
输入序列的Fasta文件
22
3. FGENESH的使用及结果分析
起始外显子 起始碱基
4. 使用Spidey 对检索号为AF319968的核酸序列进行 分析,标出识别为外显子的区段。
48
实验报告
• 到网络教学平台-基因与蛋白质组学数据分析 B2100029-教学材料-实验课件
• 下载基因与蛋白质组学数据分析实验报告模版 • 将上述问题答案整理到实验报告中,正反打印放在
2张纸上(不超过2张),下次实验课上交。
49
谢谢大家!
复旦大学
结束
复旦大学
2. 使用Genscan对检索号为D17291的序列进行基因预测,标出外 显子区和PolyA位点,用FGENESH对该序列进行预测,写出 预测为外显子的序列区间。并比较两个服务器预测的结果是 否一致,写出二者都预测为外显子的区段。
47
3. 使用CpGPlot, POLYAH, PromoterScan对检索号为 AF319968的核酸序列进行分析,识别序列中的功 能元件,将预测结果(部分)进行截图,标出主 要的结果。
特点: 1 长开放阅读框 2 高基因密度 3 简单的基因结构 4 基因组中GC含量变化非常大
3
真核生物基因结构
特点:1 基因结构复杂 2 具有复杂的基因转录调控方式 3 具有丰富的可变剪接 4 有明显的CpG岛、密码子使用具有 偏好性
4
基因组序列分析
5
例:What is Gene Prediction?
10
1. ORF Finder的使用及结果分析
11
1. ORF Finder的使用及结果分析
12
1. ORF Finder的使用及结果分析
13
1. ORF Finder的使用及结果分析
14
1. ORF Finder的使用及结果分析
Blast比对结果搜索到多个显著相似的序列,故所预测的ORF的可信度较 高。如果要获取该ORF所编码的蛋白质序列,可以点击“Accept”按钮后, 在“1GenBank”的下拉框中选择“3Fasta”,并点击“view”,即可获 取该ORF所编码的蛋白质序列。
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
38
39
mRNA剪切位点识别:spidey
30
输入序列的Fasta文件
31
从该序列的预测结果来看,找到两个CpG岛, 分别位于501-727,长度为227个碱基,5438054691,长度为312
32
四 转录终止信号
加polyA信号:AAUAAA
mRNA前体5’
AAUAAA
CA
GU
3’
成熟mRNA 5’
AAUAAA
CAAAAAAAAAAAAA 3’