基因组数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
选择物种
选择blast程序
5
Query Sequence
Amino acid Sequence
DNA Sequence
BLASTp
tBLASTn
Translated
BLASTn
BLASTx
tBLASTx
Translated
Protein Database
Nucleotide Database
Nucleotide Database
– 通过判断两个序列之间的相似性来判定两者是否具有 同源性 • 相似性:直接的数量关系,如:序列之间相似部分 的百分比 • 同源性:质的判断,两个基因在进化上是否曾有共 同祖先的推断
3
BLAST
• 基本局部比对搜索工具 (Basic Local Alignment Search Tool) • NCBI 上 BLAST 服务的网址: http://www.ncbi.nlm.nih.gov/blast/ • NCBI 的 BLAST 程序及数据库下载网址: ftp://ftp.ncbi.nlm.nih.gov/blast
Protein Database
Nucleotide Database
6
程序名
搜索序列
数据库
内容
备注
blastp
Protein
Protein
比较氨基酸序列与蛋白 使用取代矩阵寻找较 质数据库 远的关系,进行SEG 过滤 比较核酸序列与核酸数 寻找较高分值的匹配, 据库 对较远的关系不太适 用 比较核酸序列理论上的 用于新的DNA序列和 六框架的所有转换结果 ESTs的分析,可转 和蛋白质数据库 译搜索序列 比较蛋白质序列和核酸 用于寻找数据库中没 序列数据库,动态转换 有标注的编码区,可 为六框架结果 转译数据库序列 比较核酸序列和核酸序 转译搜索序列与数据 列数据库,经过两次动 库序列 态转换为六框架结果
基因组数据注释和功能分析
1
1. 通过序列比对工具BLAST学习,了解 蛋白编码基因的功能注释原理 2. 介绍多序列联配工具ClustalX 3. 分子进化分析软件MEGA4的基本知 识,掌握系统发生树绘制的基本方法
2
序列比对的进化基础
• 序列比对的目的: – 从核酸以及氨基酸的层次去分析序列的相同点和不同 点,以推测他们的结构、功能以及进化上的联系
7
blastn
Nucleotide
Nucleotide
blastx
Nucleotide
Protein
tblastn
Protein
Nucleotide
tblastx
Nucleotide
Nucleotide
与核酸相关的数据库
与蛋白质相关的数据库
8
序列或目标序列的GI号 以文件格式上传
选择数据库
9
配对与错配
空位罚分
10
PSI-BLAST: 位点特异迭代
11
打分矩阵: •PAM 30 •PAM 70 •BLOSUM80 •BLOSUM62 •BLOSUM45
12
选择打分矩阵(scoring matrix)
• • •
The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.
The BLOSUM family Based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely related proteins.
15
16
上机实习1:网上运行blastx和blastn (NCBI blast网址: http://www.ncbi.nlm.nih.gov/BLAST/)
>lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCA ATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGC CAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGA TCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGC ACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCC TGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTG GCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGA CGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACA GTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTT GTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGA GATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATC ACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCC ACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTT ACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTC GCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC
• •
•
Biblioteka Baidu
13
进行比对的数据库
图形化结果
14
The Expect value (E) is a parameter that describes the number of hits one can "expect" to see just by chance when searching a database of a particular size.