实验三基因组序列分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CpG Island 分析
CpG Island CpG finder http://www.uscnorris.com/cpgislands2/cpg.aspx http://www.softberry.com/berry.phtml?topic=cpgfinder &group=programs&subgroup=promoter Web Web Web
AC002390.1
输入基因组序列 或序列数据库号
42
输入相似mRNA序列
判断用于分析的序列间的差异, 并调整比对参数 不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb 比对阈值
选择物种
输出格式
43
第一条蓝色序列为 基因组序列,橘黄 色为外显子
44
外显子对应于 基因组上的 起始/结束位置
2
原核生物基因结构
特点: 1 2 3 4 长开放阅读框 高基因密度 简单的基因结构 基因组中GC含量变化非常大
3
真核生物基因结构
特点:1 基因结构复杂 2 具有复杂的基因转录调控方式 3 具有丰富的可变剪接 4 有明显的CpG岛、密码子使用具有 偏好性
4
基因组序列分析
5
例:What is Gene Prediction?
预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
38
39
mRNA剪切位点识别:spidey
NCBI开发的在线预测程序 用于mRNA序列同基因组序列比对分析
http://www.ncbi.nlm.nih.gov/IEB/Research/ Ostell/Spidey/index.html
Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein?
AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATG CATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCAT CGAAGTTGCATG ACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGA TGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGAC GATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGC AAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTA GCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGC ATGACCTAGTGCATGACG ATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATG CATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC
40
41
Spidey序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析
Softberry
MIT Zhang lab Softberry GIT Maryland
真核
脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核 原核 原核
FgeneSB FgeneSV Generation FGENESH+ GenomeScan GeneWise
Softberry Softberry ORNL Softberry MIT EBI
细菌 病毒 原核 原核 脊椎、拟南芥、玉米 人、蠕虫
GRAIL
http://grail.lsd.ornl.gov/grailexp/
ORNL
人、小鼠、拟南芥、果蝇 9
1. ORF Finder的使用及结果分析
10
1. ORF Finder的使用及结果分析
11
1. ORF Finder的使用及结果分析
12
1. ORF Finder的使用及结果分析
13
1. ORF Finder的使用及结果分析
14
1. ORF Finder的使用及结果分析
Blast 比对结果搜索到多个显著相似的序列,故所预测的 ORF 的可信度较 高。如果要获取该ORF所编码的蛋白质序列,可以点击“Accept”按钮后, 在“ 1GenBank ”的下拉框中选择“ 3Fasta ”,并点击“ view ”,即可获 取该ORF所编码的蛋白质序列。
intron
intergenic region
exon
gene 1
gene 2
gene 3
6
7
基因预测
一 开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
8
基因开放阅读框/基因结构分析识别工具
29
三 CpG岛预测
CpG岛 CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC, 二者以磷酸酯键相连。 位于真核生物基因转录起始位点上游, GC 含 >50% ,长度 >200bp CpG岛常出现在管家基因或频繁表达的基因的启动子附近, 在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜 索CpG岛可以为基因及其启动子的预测提供线索。
基因与蛋白质组学数据分析
实验三:基因序列分析
杜 娟 dujuannx@126.com
复旦大学
实验项目三:基因序列分析 一、 实验目的和要求: – 掌握基因可读框的识别; – 掌握启动子区域的预测 – 掌握CpG岛的预测 – 掌握转录终止信号的预测 – 采用mRNA序列预测基因:Spidey的使用 – 掌握各预测服务器结果的分析
提交序列文件
提交序列
运行GENSCAN
20
2. Genscan的结果分析
基因、 预测单元 外显子 正链、 起始、终 及类型 负链 止及长度
相位
编码 区打 分值
可信概率、 得分值
21
3. FGENESH的使用及结果分析
输入序列的Fasta文件
22
http://linux1.softberry.com/berry.phtml?group=programs&subgroup=gfind&topic=fgenesh
-110 -40
TATAAT
A
mRNA
-25
+1
GC区
增强子
CAAT区
TATAAT
PyAPy
上游启动子元件,UPE
核心启动子元件
转录起始 位点
26
原核生物
真核生物
27
二. 启动子预测
输入序列的Fasta文件
28
启动子预测结果
从预测结果可知,预测的启动子区 在32564至32783之间,启动子阈值 系统默认为 53.00 ,预测的启动子 分值为 84.69 ,高于阈值,分值越 高,说明预测的准确性大。与该启 动子可能结合的转录因子如下所示
外显子对应于 mRNA/cDNA上的 起始/结束位置
供体、受体位点
外显子 序号
外显子 长度
一致性 百分比
错配和gap
45
序列联配结果
46
作 业
3. FGENESH的使用及结果分析
起始外显子
显中 子间 及 末 端 外
起始碱基
终止碱基
打分
长度
PolyA位点
23
3. FGENESH的使用及结果分析
24
3. FGENESH的使用及结果分析
25
二. 原核和真核生物基因转录起始位点上 游区结构
原核生物
-35 -10 +1 mRNA
TTGAC A 真核生物
wk.baidu.com3’
33
34
转录终止信号预测 Hcpolya POLYAH polyadq http://l25.itba.mi.cnr.it/~webgene/wwwHC_polya.html http://www.softberry.com/berry.phtml?topic=polyah&group=programs&s ubgroup=promoter http://rulai.cshl.org/tools/polyadq/polyadq_form.html Web Web Web
EMBOSS
EMBOSS NCBI
通用
通用 通用
BestORF
GENSCAN Gene Finder FGENESH GeneMark GLIMMER
http://www.softberry.com/all.htm
http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://www.softberry.com/all.htm http://opal.biology.gatech.edu/GeneMark/ http://www.ncbi.nlm.nih.gov/genomes/MICROBES/gli mmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://www.softberry.com/all.htm http://www.softberry.com/all.htm http://compbio.ornl.gov/generation/ http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.ebi.ac.uk/Wise2/
15
1. ORF Finder的使用及结果分析
16
1. ORF Finder的使用及结果分析
17
1. ORF Finder的使用及结果分析
18
1. ORF Finder的使用及结果分析
19
选择物种
2. Genscan的使用及结果分析
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列
30
CpGPlot/CpGReport/Isochore http://www.ebi.ac.uk/emboss/cpgplot/index.html
输入序列的Fasta文件
31
从该序列的预测结果来看,找到两个CpG岛, 分别位于501-727,长度为227个碱基,5438054691,长度为312
32
四 转录终止信号
加polyA信号:AAUAAA
mRNA前体5’ AAUAAA CA GU 3’
成熟mRNA 5’
AAUAAA
CAAAAAAAAAAAAA
3’
转录终止信号:GC rich二重对称区、UUUUUU
RNA 5’
UUUUUUUUU C-G C-G G-C G-C U-A G-C G-C C-G G-C
Getorf
Plotorf ORF Finder
http://bioweb.pasteur.fr/seqanal/interfaces/getorf.html
http://bioweb.pasteur.fr/seqanal/interfaces/plotorf.html http://www.ncbi.nlm.nih.gov/gorf/gorf.html
35
POLYAH的使用及结果分析
输入序列的Fasta文件
36
POLYAH的使用及结果分析
预测的POLYA位点,LDF为权重
37
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
相关文档
最新文档