生物信息学-第五章-核苷酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析
输入基因组序列 或序列数据库号
判断用于分析的序列间的差异, 并调整比对参数 比对阈值 选择物种
输入mRNA.txt文档中的 6条序列
不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb 输出格式
基因结构分析
选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因 的调控表达机制
分析方法: 查询选择性剪切相关的网站 多序列比对
基因结构分析
查询选择性剪切相关的网站
从已知基因的功能推测剪切机制
http://www.ebi.ac.uk/asd/index.html http://splicenest.molgen.mpg.de/ http://cgsigma.cshl.org/new_alt_exon_db2/
基因结构分析
基因开放阅读框/基因结构分析工具
对基因组序列的读码框区域进行预测
NNSplice http://www.fruitfly.org/seq_tools/splice.html Web
NetGene2
SPL/SPLM/RNASPL/FSPLICE
http://www.cbs.dtu.dk/services/NetGene2/
1 输入GI号或Accession,或直接输 NCBI ORF finder 入序列的 fasta 格式
2 结果出现六个图形,这是根据六种不同的 编码方式得到的(包括正反链)。
• 3 拿到氨基酸序列后,你可以直接做blastp, 如果有匹配到,就是正确的ORF区了。另外也 可以用Pfam的方法,在Pfam数据库搜索。
http://www.ncbi.nih.gov/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
基因结构分析
Spidey序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
Softberry
ORNL Softberry MIT
病毒
原核 原核 脊椎、拟南芥、玉米
GeneWise
GRAIL
http://www.ebi.ac.uk/Wise2/
http://grail.lsd.ornl.gov/grailexp/
EBI
ORNL
人、蠕虫
人、小鼠、拟南芥、果蝇
基因预测
选择物种
FgeneSB
Softberry
细菌
FgeneSV
Generation FGENESH+ GenomeScan
http://www.softberry.com/all.htm
http://compbio.ornl.gov/generation/ http://www.softberry.com/all.htm http://genes.mit.edu/genomescan.html
GeneSplicer SplicePredictor
分析mRNA/cDNA的外显子组成
GeneSeqer Spidey Sim4 BLAT BLAST FASTA http://bioinformatics.iastate.edu/cgi-bin/gs.cgi http://www.ncbi.nih.gov/spidey http://gamay.univ-perp.fr/analyse_seq/sim4 http://globin.cse.psu.edu/ http://www.cse.ucsc.edu/~kent/src/unzipped/blat/ ftp://ftp.ncbi.nlm.nih.gov/BLAST/Executables ftp://ftp.virginia.edu/pub/fasta/win32_fasta/fasta34t21b5d.zip Web/Linux Web Web/Linux Linux
综合 综合 综合 人 线虫 拟南芥
http://www.tigr.org/tigr-scripts/tgi/splnotes.pl?species=human http://prosplicer.mbc.nctu.edu.tw/ http://www.bit.uq.edu.au/altExtron
http://www.cse.ucsc.edu/~kent/intronerator/altsplice.html http://www.tigr.org/tdb/e2k1/ath1/altsplicing/splicing_variations.shtml
Web/Windows/ Linux
Web/Windows/ Linux
基因结构分析
剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
基因结构分析
NetGene2输出结果
供体位点 可信度
受体位点
基因结构分析
mRNA剪切位点识别:Spidey
预测外显子位置、 可信度等信息
同源 比对 信息
基因预测
GenomeScan输出结果:图形
基因结构分析
基因结构分析
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
第三章 核苷酸序列分析
基因组功能分析
基因组序列 cDNA序列
翻译
编码区预测
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
基因结构分析
序列比对 功能注释 KEGG GO 系统发育树 Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
如何判断DNA序列的单一基因产物NCBI ORF finder
• 在没有其它信息的前提下,DNA序列可以按 六种框架阅读和翻译(每条链三种,对应 三种不同的起始密码子)。ORF识别包括检 测这六个阅读框架并决定哪一个包含以启 动子和终止子为界限的 DNA序列而其内部不 包含启动子或终止子,符合这些条件的序 列有可能对应一个真正的单一的基因产物。
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C
基因结构分析
选择性剪切数据库:ProSplicer
http://prosplicer.mbc.nctu.edu.tw/
基因名、数据 库号或关键字 查询
序列查询
基因结构分析
ProSplicer查询结果
查询NOX1基因:
预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
基因结构分析
内含子/外显子剪切位点识别
如何分析mRNA/cDNA的外显子组成?
RNASPL(软件) 与相应的基因组序列比对,分析比对片段的 分布位置 预测工具:
Spidey,SIM4,BLAT,BLAST,FASTA
http://genes.mit.edu/GENSCAN.html
ORF识别:GENSCAN
是否显示非最优外显子 序列名称(可选) 显示氨基酸或CDS序列 提交序列文件
提交序列
结果返回到邮箱(可选)
GENSCAN输出结果:文本
基因、 外显子 正链、 及类型 负链 预测单元 起始、终 止及长度
相位
编码区 打分值
可信概率、 得分值
基因预测
GENSCAN输出结果:图形
exon1 exon2 exon3 exon4
exon5
基因预测
ORF识别: GenomeScan
http://genes.mit.edu/genomescan.html
提交待分析序列
提交同源蛋白质序列
基因预测
GenomeScan输出结果:文本
http://www.softberry.com/all.htm http://www.tigr.org/tdb/GeneSplicer/gene_spl.html http://bioinformatics.iastate.edu/cgi-bin/sp.cgi
Web
Web Web/Linux Web
第一条蓝色序列为 基因组序列,橘黄 色为外显子
Spidey输出结果
外显子对应于 基因组上的 起始/结束位置 外显子对应于 mRNA/cDNA上的 起始/结束位置 供体、受体位点
外显子 序号 序列联配结果
外显子 长度
一致性 错配和gap 百分比
基因结构分析
选择性剪切(Alternative splicing)分析
4.结果表明该ORF编码的蛋白是属于BTB家族。
基因开放阅读框/基因结构分析识别工具
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER http://www.ncbi.nlm.nih.gov/gorf/gorf.html http://www.softberry.com/all.htm http://genes.mit.edu/GENSCAN.html http://rulai.cshl.org/tools/genefinder/ http://www.softberry.com/all.htm http://opal.biology.gatech.edu/GeneMark/ http://www.ncbi.nlm.nih.gov/genomes/MICROBES/ glimmer_3.cgi http://www.cbcb.umd.edu/software/glimmer http://www.softberry.com/all.htm NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核 原核 原核
3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
限 制 酶
目标基因 传统分子生 物学方法 现代生物信 息学方法
重组 基因
BLAST
细胞转化
宿主菌
Gene family Or Protein Family
几分钟的时间
ຫໍສະໝຸດ Baidu
几周的时间 蛋白质分离纯化及性质测定
Function annotation
以Blastx为例:
目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 6个读码框翻译
核苷酸序列分析
GENSCAN
基因预测
开放读码框
GenomeScan GLIMMER NetGene2 Spidey ProSplicer Spidey EPD Cister CpGPlot Hcpolya genskew NEBcutter CodonW
内含子/外显子剪切位点
基因结构分析
选择性剪切 启动子/转录起始位点
CpG岛 转录终止信号 GC含量
转录调控序列 分析
序列组分分析
限制性核酸内切酶位点 密码子偏好性使用
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
What does this sequence mean?