实习二 核苷酸序列分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
http://www.ncbi.nih.gov/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
23
基因结构分析
Spidey序列提交页面 序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
实习二 核苷酸序列分析
马 梁 蒋 琰 张 婧 阮 陟 浙江大学沃森基因组科学研究院 浙江加州国际纳米技术研究院 2008 2008年4月
1
课程内容
实习一 实习二 实习三 实习 实习 实习 基因组数据注释和功能分析 核苷酸序列分析 芯片的基本数据处理和分析 功能分析 组学数据分析
基因组学 系 统 生 转录物组学 物 学
基因预测
GENSCAN输出结果:文本 输出结果: 输出结果
基因、 基因、 预测单元 正链、 起始、 外显子 正链、 起始、终 及类型 负链 止及长度 相位 编码区 打分值 可信概率、 可信概率、 得分值
9
基因预测
GENSCAN输出结果:图形 输出结果: 输出结果
exon1 exon2 exon3 exon4
运行程序
14
基因预测
ORF识别: GLIMMER 识别: 识别
http://www.cbcb.umd.edu/software/glimmer/
版本信息
上机实习一:开放读码框预测 步骤一:GENSCAN
http://genes.mit.edu/GENSCAN.html
提交序列文件:sequence.txt 步骤二:GenomeScan
http://genes.mit.edu/genomescan.html
提交序列文件:sequence.txt 用于同源比对蛋白质序列:protein.txt
16
基因结构分析
17
基因结构分析
内含子/外显子剪切位点识别 内含子 外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
FgeneSB FgeneSV Generation FGENESH+ GenomeScan GeneWise GRAIL
Softberry Softberry ORNL Softberry MIT EBI ORNL
细菌 病毒 原核 原核 脊椎、拟南芥、 脊椎、拟南芥、玉米 人、蠕虫 人、小鼠、拟南芥、果蝇 7
组学
物学 实习
2
基因组功能分析
基因组序列 cDNA序列
翻译
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
序列比对 功能注释 KEGG GO 系统发育树
3
核苷酸序列分析
24
基因结构分析
第一条蓝色序列为 基因组序列, 基因组序列,橘黄 色为外显子
Spidey输出结果 输出结果
外显子对应于 基因组上的 起始/ 起始/结束位置 外显子对应于 mRNA/cDNA上的 上的 起始/结束位置 起始 结束位置 供体、 供体、受体位点
外显子 序号 序列联配结果
外显子 长度
一致性 错配和 错配和gap 百分比
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://www.softberry.com/all.htm http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://www.softberry.com/all.htm http://opal.biology.gatech.edu/GeneMark/ http://www.ncbi.nlm.nih.gov/genomes/MICROBES/ glimmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://www.softberry.com/all.htm http://www.softberry.com/all.htm http://compbio.ornl.gov/generation/ http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html http://www.ebi.ac.uk/Wise2/ http://grail.lsd.ornl.gov/grailexp/ NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核 原核 原核
exon5
10
基因预测
ORF识别: GenomeScan 识别: 识别
http://genes.mit.edu/genomescan.html
提交待分析序列
提交同源蛋白质序列
11
运行GenomeScan 运行
基因预测
GenomeScan输出结果:文本 输出结果: 输出结果
预测外显子位置、 预测外显子位置、 可信度等信息
同源 比对 信息
预测结果氨基酸序列
12
基因预测
GenomeScan输出结果:图形 输出结果: 输出结果
13
基因预测
ORF识别: GLIMMER 识别: 识别
http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi
预测结果
提交序列
设置参数
Web Web Web Web/Linux Web
GeneSplicer SplicePredictor
分析mRNA/cDNA的外显子组成 的外显子组成 分析
GeneSeqer Spidey Sim4 BLAT BLAST FASTA http://bioinformatics.iastate.edu/cgi-bin/gs.cgi http://www.ncbi.nih.gov/spidey http://gamay.univ-perp.fr/analyse_seq/sim4 http://globin.cse.psu.edu/ http://www.cse.ucsc.edu/~kent/src/unzipped/blat/ ftp://ftp.ncbi.nlm.nih.gov/BLAST/Executables ftp://ftp.virginia.edu/pub/fasta/win32_fasta/fasta34t21b5d.zip Web/Linux Web Web/Linux Linux Web/Windows/ Linux Web/Windows/ Linux
外显子
不同剪切体外显子 组成不同
29
基因结构分析
基于序列比对分析选择性剪切
cDNA/mRNA/EST 序列比对
收集序列 在序列上高度相似的 mRNA/cDNA/EST序列 序列 相匹配的基因组序列
19
基因结构分析
基因开放阅读框/基因结构分析工具 基因开放阅读框 基因结构分析工具
对基因组序列的读码框区域进行预测
NNSplice NetGene2
SPL/SPLM/RNASPL/FSPLICE
http://www.fruitfly.org/seq_tools/splice.html http://www.cbs.dtu.dk/services/NetGene2/ http://www.softberry.com/all.htm http://www.tigr.org/tdb/GeneSplicer/gene_spl.html http://bioinformatics.iastate.edu/cgi-bin/sp.cgi
基因预测
ORF识别:GENSCAN 识别: 识别
选择物种 http://genes.mit.edu/GENSCAN.html 是否显示非最优外显子 序列名称(可选) 序列名称(可选) 显示氨基酸或CDS序列 序列 显示氨基酸或 提交序列文件
提交序列
结果返回到邮箱(可选) 结果返回到邮箱(可选)
8
运行GENSCAN 运行
20
基因结构分析
剪切位点识别: 剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
选择物种 提交序列
21
基因Biblioteka Baidu构分析
NetGene2输出结果 输出结果
供体位点 可信度
受体位点
22
基因结构分析
mRNA剪切位点识别:Spidey 剪切位点识别: 剪切位点识别
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析 输入基因组序列 或序列数据库号
判断用于分析的序列间的差异, 判断用于分析的序列间的差异, 并调整比对参数 比对阈值 选择物种
输入mRNA.txt文档中的 文档中的 输入 6条序列 条序列
不受默认内含子长度限制, 不受默认内含子长度限制, 默认长度:内部内含子 默认长度: 末端内含子为100kb 为35kb, 末端内含子为 输出格式
预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
18
基因结构分析
内含子/外显子剪切位点识别 内含子 外显子剪切位点识别
如何分析mRNA/cDNA的外显子组成?
RNASPL(软件) 与相应的基因组序列比对,分析比对片段的 分布位置 预测工具:
Spidey,SIM4,BLAT,BLAST,FASTA
25
基因结构分析
选择性剪切(Alternative splicing)分析 )
选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因 的调控表达机制
分析方法: 查询选择性剪切相关的网站 多序列比对
26
基因结构分析
查询选择性剪切相关的网站
从已知基因的功能推测剪切机制
http://www.ebi.ac.uk/asd/index.html http://splicenest.molgen.mpg.de/ http://cgsigma.cshl.org/new_alt_exon_db2/ http://www.tigr.org/tigr-scripts/tgi/splnotes.pl?species=human http://prosplicer.mbc.nctu.edu.tw/ http://www.bit.uq.edu.au/altExtron http://www.cse.ucsc.edu/~kent/intronerator/altsplice.html http://www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml
GENSCAN
基因预测
开放读码框
GenomeScan GLIMMER NetGene2 Spidey
内含子/外显子剪切位点 内含子 外显子剪切位点
基因结构分析
选择性剪切 启动子/转录起始位点 启动子 转录起始位点 CpG岛 岛 转录终止信号 GC含量 含量
ProSplicer Spidey EPD Cister CpGPlot Hcpolya genskew NEBcutter CodonW
综合 综合 综合 人 线虫 拟南芥
27
基因结构分析
选择性剪切数据库: 选择性剪切数据库:ProSplicer
http://prosplicer.mbc.nctu.edu.tw/
基因名、 基因名、数据 库号或关键字 查询
序列查询
28
基因结构分析
ProSplicer查询结果 查询结果
查询NOX1基因: 基因: 查询 基因
4
转录调控序列 分析
序列组分分析
限制性核酸内切酶位点 密码子偏好性使用
基因预测
5
基因预测
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
6
基因预测
基因开放阅读框/ 基因开放阅读框/基因结构分析识别工具
相关文档
最新文档