基因组学数据分析.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BlastN
序列或目标序列的GI号 以文件格式上传
选择数据库
配对与错配 空位罚分
BlastP
打分矩阵: •PAM30 •PAM70 •BLOSUM80 •BLOSUM62 •BLOSUM45
PAM模型可用于寻找蛋白质的进化起 源,而BLOSUM模型则用于发现蛋 白质的保守域。
选择打分矩阵(scoring matrix)
实习一
基因组数据注释和功能分析
陈启昀 丁文超
陈辰 张增明
浙江加州国际纳米技术研究院(ZCNI)
实习一 实习二 实习三 实习四 实习五 实习六
课程内容
基因组数据注释和功能分析 核苷酸序列分析 芯片的基本数据处理和分析 蛋白质结构与功能分析 蛋白质组学数据分析 系统生物学软件实习
基因组学
系
统
转录物组学
/executables/release/ • NCBI的BLAST数据库下载网址: • ftp://ftp.ncbi.nlm.nih.gov/blast/db/
选择物种 选择blast程序
QuerySequence
AminoacidSequence
DNASequence
BLASTp
Protein Database
The PAM family • Based on global alignments • The PAM1 is the matrix calculated from comparisons of
sequences with no more than 1% divergence. • Other PAM matrices are extrapolated from PAM1.
tBLFra Baidu bibliotekSTn
BLASTn BLASTx tBLASTx
Translated
Nucleotide Database
Nucleotide Database
Translated
Translated
Protein Nucleotide Database Database
程序名 搜索序列
数据库 内容
备注
blastp blastn blastx tblastn tblastx
GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C
3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始:
目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC
6个读码框翻译
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始:
The BLOSUM family • Based on local alignments. • BLOSUM62 is a matrix calculated from comparison s of
sequences with no less than 62% divergence. • All BLOSUM matrices are based on observed
alignments ;they are not extrapolated from comparisons of closely related proteins.
CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始:
GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
与核酸相关的数据库 与蛋白质相关的数据库
生 物
学
蛋白质组学
课程提纲
1. 通过序列比对工具BLAST学习,了解 蛋白编码基因的功能注释原理
2. 介绍多序列联配工具ClustalX 3. 分子进化分析软件MEGA4的基本知
识,掌握系统发生树绘制的基本方法
序列比对的进化基础
• 什么是序列比对: – 将两个或多个序列按照最佳匹配方式排列在一起。 – 对应的相同或相似的符号排列在同一列上。 – 错配与突变相应,空位与插入或缺失对应。
• 基本局部比对搜索工具(Basic Local Alignment Search Tool)
• NCBI上BLAST服务的网址: • http://www.ncbi.nlm.nih.gov/blast/ • NCBI上BLAST程序的下载: • ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release//blast
Protein
Protein
比较氨基酸序列与蛋白 使用取代矩阵寻找较
质数据库
远的关系,进行SEG
过滤
Nucleotide
Nucleotide 比较核酸序列与核酸数 寻找较高分值的匹配,
据库
对较远的关系不太适
用
Nucleotide
Protein
比较核酸序列理论上的 用于新的DNA序列和 六个读码框的所有转换 ESTs的分析,可转 结果和蛋白质数据库 译搜索序列
Protein
Nucleotide 比较蛋白质序列和核酸 用于寻找数据库中没 序列数据库,动态转换 有标注的编码区,可 为六个读码框的结果 转译数据库序列
Nucleotide
Nucleotide
比较核酸序列和核酸序 列数据库,经过两次动 态转换为六个读码框的 结果
转译搜索序列与数据 库序列
以Blastx为例:
• 序列比对的目的: – 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他 们的结构、功能以及进化上的联系 – 通过判断两个序列之间的相似性来判定两者是否具有同源性 • 相似性:可以被数量化,如:序列之间相似部分的百分比 • 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断
BLAST