第三章 BLAST原理及方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Step 2: Choose the BLAST program
blastx (translated BLAST):将一个核酸的查询序列按所有可 能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。 如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进 行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程 序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的 各个成员进行比较。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
Example of the FASTA format for a BLAST query 一个FASTA格式的序列以一个单行的说明开始,接下来是 若干个行的序列数据。
在一个BLAST搜索中输入accession number通常要容易 些。BLAST程序可以识别和忽略出现在你的输入序列字母 中间的数字。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 研究可能存在多种剪切方式的表达序列标签。有专门用 于BLAST搜索的EST数据库。实际上有许多用来进行搜索 专门的数据库,如专门的包含同一个特定的物种、一种组 织、一个染色体、一种DNA或一个蛋白质功能类的序列数 据库。 ❖ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基 酸残基。一次BLAST搜索的结果可以放在一起比对,这时 候,就会发现其中像半胱氨酸残基这样可能具有重要生物 学功能的保守残基。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
⑤ 矩阵matrix:对于blastp的蛋白质-蛋白质搜索有5种氨基 酸替代矩阵:PAM30,PAM70,BLOSUM45,BLOSUM62(默 认值)以及BLOSUM80.一些其他的BLAST服务器还提供了 很多其他的替代矩阵,如PAM250。通常情况下明智的选择 是在一次BLAST搜索中使用几种不同的打分矩阵。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定一个DNA或蛋白质序列身份。如可能通过一个负杂 交实验或芯片实验发现一个特殊的DNA序列中你所使用的 实验条件下是被显著调控的,那么就可以通过将这个DNA 序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质 是与你的DNA序列所编码的蛋白质相关性最高的。 ❖ 发现新基因。如一个对于全基因组DNA的BLAST搜索可 能会发现一个DNA所编码的蛋白质是以前所没有报道过的 ❖ 确定一个特定基因或蛋白质有哪些已经发现了的变种。 例如,很多病毒都具有极强的突变能力;HIV-1pol有哪些 已知的变异体?
Step 3: choose the database
nr数据库是合并了若干个主要的蛋白质或DNA数据 库得到的。这些数据库中经常包含有相同的序列, 但nr数据库只收录其中的一个序列(即使在nr数据库 中出现看上去一样的序列,实际上还是具有一些细 节上的区别)。 nr数据库是在要搜索现有的绝大多 数序列时典型和常用的数据库。
第三章 BLAST:
Basic local alignment search tool
BL A ST!
Outline
• Summary of key points about pairwise alignment • Introduction to BLAST: practical guide to database searching • The BLAST algorithm • BLAST search strategies
Database 1
DNA 1
protein 6
protein 6
DNA 36
DNA
DNA potentially encodes six proteins
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT
5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
对于核酸序列,默认的字段长度是11,BLAST的字长缺省值为11,即BLASTN将扫 描数据库,直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段 为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和 几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变 得更准确同时也会变得更慢。
Step 2: Choose the BLAST program
blastn (nucleotide BLAST):将一个核酸的查询序列与一个 核酸序列数据库相比较。 blastp (protein BLAST):将一个氨基酸的查询序列与一个 蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索 相关的可选参数,如对各种PAM和BLOSUM打分矩阵的选 择。 tblastn (translated BLAST):将一个蛋白质查询序列与一 个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行 比较。可以用此程序来判断一个DNA数据库是否编码所感 兴趣的查询蛋白。用RBP查询是否可以在某个已测序的 DNA数据库中找到匹配项呢?
Why use BLAST?
BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数 据库中的其他序列进行比对的主要工具。 BLAST搜索是研 究一个蛋白质和基因的最基本的方法之一。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或 旁系同源序列。除了RBP外,还有哪些其他的脂质运载蛋 白是我们所知道的?当一个新的细菌的基因组被测序后, 几千种蛋白质被确定,其中有多少蛋白质是同源的?从这 里面测出的基因中有多少是在GenBank中找不到显著性同 源物的? ❖ 确定哪些蛋白质和基因在特定的物种中出现。植物中是 否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转 录酶基因(HIV-1 pol 基因)?
tblastx (translated BLAST):将一个核酸查询序列的6种框架 的翻译结果与一个核酸序列数据库的6种框架翻译产物进行比 较。该程序不能使用BLAST网页上提供的主要的去冗余(nr)数 据库,因这一操作很消耗计算机资源。
Choose the BLAST program
Program Input blastn DNA blastp protein blastx DNA tblastn protein tblastx DNA
对于蛋白质搜索,窗口大小可以被设定为3(默认值)或者2。当用一个查询序列来进行 数据库搜索时,BLAST算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的 序列段(字段)。
对于blastp,更大的字段长度将得到更高的搜索精度。对于任意的字段长度,每个字 段的匹配结果将被延伸以得到BLAST的输出结果。实际应用中对于蛋白质搜索很少需要 改变字段的长度。
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
Step 3: choose the database
BLAST搜索可使用的数据库会列在每一个BLAST 页面上,对于蛋白质数据库搜索(blastp和blastx), 两个主要的选择即nr数据库和SwissProt。 nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
去冗余GenBank编码序列PDB + SwissProt + PIR + PRF
Step 4a: 选择可选的搜索参数Select optional search parameters
当确定了要输入的序列和要搜索的数据库之后,还 有10个其他的可选参数要确定。 ① Limit by Entrez Query:任何NCBI BLAST 搜索 的范围都可以用在Entrez搜索中使用的任何一种范 围限定词来限定。
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
NP_006735
Step 1: Choose your sequence
三种主要的输入方式: ❖ 剪切然后粘贴DNA或蛋白质序列 ❖使用FASTA格式的序列 ❖简单地使用索引号码(如一个RefSeq或GenBank (GI)的序号)。 Sequence can be input in FASTA format or as accession number
② Max target sequences:比对之后显示的最大的 比对序列的数目。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
③ 期望expect:期望值E是得分大于或等于某个分值S的不 同的比对的数目在随机的数据库搜索中发生的可能性。这 个数值表示你仅仅因为随机性造成获得这一联配结果的可 能次数。对于blastn、blastp、blastxt和blastn期望值的默 认设置是10。在这个E值下,随机出现得分等于或高于比对 得分S的期望数为10个(这里是假设用与实际的查询序列长 度相等的随机的查询序列搜索数据库)。当将期望选项值调 小时,返回的数据库搜索结果将变少,匹配被搜索到的概 率也会变小。增大E值将返回更多的结果。
Step 4a: 选择可选的搜索参数Selwenku.baidu.comct optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
④ 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现 最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短 序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分 :如果碱基对完全相同(如A与A),得某一正值;如果碱基对不很匹配(W与A或T),则得 某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的 相似程度。
相关文档
最新文档