蛋白质生物信息学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
序列对比问题即是在矩阵中寻找最佳的 对比路径。
方法:Needleman-Wunsch动态规划 算法;Smith-Waterman算法;SIM算 法。
工具:LALIGN;Align、B12Seq等。
多序列对比
多序列对比是把两条以上可能有系统进化关系 的序列进行对比的方法。
目前,使用最广泛的多序列对比程序是 CLUSTALX。它先将多个序列进行两两对比构 建距离矩阵,确立序列间的两两关系。然后根 据距离矩阵计算产生系统进化指导树,对关系 密切的序列进行加权。再从相似程度最高的两 条序列开始,逐步引入临近的序列并不断重新 构建对比,直到所有序列都被加入为止。
Enzyme 查询界面
用户可以根据酶的描述信息,与化合物的结合情 况,共作用分子等等进行查询
数据库介绍 (4) - PROSITE
蛋白质模体及结构域数据库 什么是结构域/模体?
结构域可以理解为蛋白家族共有的保守区域, 是对蛋白家族序列进行多序列比对后,对保 守区域进行抽提归纳得到的结果。
BLAST数据库搜索工具
BLAST是目前应用最广泛的序列相似性 搜索工具,比FASTA改进更多,搜索速 度更快,并建立在严格的统计学基础之 上。
BLAST程序
程序
数据库
简述
Blastp
蛋白质
可能找到具有远源进化关系的匹配序列
Blastn
核苷酸
适合寻找分值较高的匹配,不适合远源 关系
Blastx
这种方法得到的保守区域为在一级序列上保 守,与高级结构一般有相关性,但有时也有 例外。
一次多序列比对结果
Clustal 是多序列比对常用的工具,用户可以提交到 http://www.ebi.ac.uk/clustalw/) 比对,许多软件包如 DNAMAN, BIOEDIT中也整合了该软件
PROSITE 内容
蛋白质
适合新DNA序列和EST序列的分析,能 够发现未知核酸序列潜在的翻译产物
Tblastn 所有阅读框动态翻 适合寻找数据库中尚未标注的编码区 译的核苷酸序列
Tblastx 核苷酸序列6个阅 适合表达序列标签(EST)分析 读框的翻译产物
一 、数据库介绍
Swiss-Prot 公认注释信息最佳的蛋白数据库,包
蛋白质的生物信息学作为其中的一个 部分,成为生物信息学的重点发展 方向。
蛋白质生物信息学研究的主要内容
1. 基因功能表达谱的研究,即探讨基因在特定时空中的表达。 2. 确定核酸序列中编码蛋白质的基因,了解蛋白质的功能及其分子
基础,运用蛋白质结构模拟与分子设计进行功能预测。 3. 对已知的各种代谢途径和相关的生物分子的结构、功能及它们之
数据库介绍 (6) SWISS-MODEL Repository
基于序列相似性的蛋白三维结构建模系统, 用
户提交自己的蛋白序列,服务器端首先搜索与 提
交序列相似的三维结构已知的蛋白,根据已知 序
列结构模拟出用户提交蛋白的三维结构模型。
Thank you
含几乎所有已知蛋白。由专家参与每条 蛋白序列的筛选和校正,并进行详细注 释。注释信息包括蛋白质功能、结构域 信息、翻译后修饰、变异情况等等。
Swiss-Prot 序列格式
每条序列注释包括九部分:
Entry info Name and origin References comments Cross-references keywords Features
数据库搜索的工具
虽然各种搜索程序和算法各不相同,但 数据库搜索检出的结果基本相似,均采 用统计学评分,并按照相似程度排序。
目前,应用较广泛的序列相似性搜索工 具:FASTA、BLAST和BLITZ等。
对于DNA序列相似性检索,FASTA的敏 感度较高,但BLAST检索速度较快。
BLITZ的运算速度较慢,但其特异性较 高。
数据库搜索的概念
数据库搜索:通过序列相似性对比的算法,在 核酸序列数据库和蛋白质序列数据库中检索出 与被检序列具有一定相似性的序列。
数据库搜索的基础是序列的相似性对比。
被检测的序列与一个已知基因家族之间的进化 关系被确定之后,通过数据库搜索可以得到一 些相似序列,但它们之间的相似性程度具有差 别,因此,还需要判断其序列相似性程度。 (其他的研究方法和/或实验手段来验证)
相似性和同源性
序列的相似性(similarity):在序列对 比中描述两条序列之间相同碱基或氨基 酸残基所占比例。
序列的同源性(homology):从大量 数据中推断出的两个基因在进化上具有 共同祖先的结论。
序列两两对比
描述序列两两对比通常用打分矩阵的方 法。即两条序列分别作为矩阵的两维, 矩阵点是两维上对应两个序列的相似性 分数,分数越高则说明两个序列越相似。
用户可以输入名称,编号,物种,组织 等多种条件进行查询。
wk.baidu.com
SRS 查询界面
数据库介绍 (2) - TrEMBL
对三大核酸数据库(GENBANK, EMBL, DDBJ) 之一的EMBL通过计算机预测得到的蛋白质数据 库,虽然不可避免地存在某些错误,数据质量比 不上Swiss-Prot。但可以作为Swiss-Prot 的
sequence
tools
序列简单信息如名称、登记号 编码蛋白的基因信息 相关参考文献 蛋白功能性质概述 其它数据库中关于该记录的信息 蛋白关键词描述 蛋白性质如突变点,结构域等
蛋白序列
一些整合的分析工具
Swiss-Prot 查询
通过EXPASY中附带的网络搜索界面 SRS(sequence retrieval system) 进行。SRS是一个通用的查询系统,与 NCBI 提供的Entrez 提供类似功能。
PROSITE 主要保存两类信息:模式 (pattern)和谱(profile,权重矩 阵)。
模式可以理解为保守的氨基酸排列方式,通 常以氨基酸单字母方式排列.
Profile 为对保守区域每一位置氨基酸保守 情况进行打分构建的权重矩阵。
PROSITE 使用注意事项
Pattern主要可以用来预测某些生物活性 位点,如磷酸化位点、甲基化位点。 profile预测可靠性高,可以用来对新蛋 白进行分类和提供功能提示。
补充, 而且其中存在一些功能未知的新基因编码的产物, 可以作为开展功能研究的靶点。
数据库介绍 (3) - ENZYME
收集了很多常用酶的信息,包括功能描 述,酶切位点,以及一些相关链接。每 条纪录都按照国际生物化学与分子生物 学 命 名 委 员 会 ( Nomenclature Committee of the International Union of Biochemistry and Molecular Biology ,IUBMB)命名规 则进行命名。
双向聚丙烯酰胺凝胶电泳数据库。保存 了很多组织来源的双向电泳图谱,用户 可以提交自己的蛋白序列,根据等电点 及分子量显示在电泳图上的位置。该数 据库还提供了2-D 电泳的protocol, 以 及 构 建 2-D 电 泳 数 据 库 的 软 件 包 http://www.expasy.org/ch2d/ma ke2ddb.html,对有兴趣作2-D 电泳的 用户来说是一个很不错的入门网站。
序列对比的概念
在生物信息学研究中,最常用和最经典 的一个研究手段,就是通过比较分析获 得有用的信息和知识。将研究对象进行 相互比较来寻找研究对象可能具备的某 些特性。从核酸及蛋白质的一级结构方 面来分析序列的相同点和不同点,从而 能够推测它们的结构、功能及进化上的 联系。
序列对比的理论基础是进化学说。如果 两个基因和蛋白质序列之间具有足够的 相似性,就推测两者可能有共同的进化 祖先,经过序列内残基的替换、缺失以 及序列重组等遗传变异过程分别演化而 来。
蛋白质生物信息学
XXX
蛋白质生物信息学
◆ 蛋白质序列分析 ◆ 蛋白质结构基础 ◆ 三级结构测定
具体来说,生物信息学是把基因组DNA序列信息作为 源头,确定基因组序列中代表蛋白质和RNA的基因编 码区。同时,阐明基因组中大量存在的非编码区的信 息实质,破译隐藏在DNA序列中的遗传规律。在此基 础上,归纳和整理与基因组遗传信息释放及其调控相 关的转录谱和蛋白质谱的数据,从而揭示生命体的生 长、发育、代谢和进化的规律。
SMART http://smart.embl-heidelberg.de/ BLOCKS http://www.blocks.fhcrc.org PRINTS
http://www.bioinf.man.ac.uk/fingerPRINTSca n/
数据库介绍 (5) SWISS2DPAGE
蛋白的功能位点是与其三维结构紧密相 关的,局部区域符合某种pattern不能保 证一定会具有对应的性质,要根据实际 情况,谨慎对待pattern 预测结果。
补充:蛋白结构域数据库
除了PROSITE 之外,还有很多结构域数据库, 比较著名的有:
Pfam http://www.sanger.ac.uk/Software/Pfam/sear ch.shtml
间的相互作用进行整理,用以研究细胞发育、分化途径和疾病的 发生与发展的途径。 4. 将这些信息与生命体和生命过程的生理生化信息相结合,阐明其 分子机制,最终进行蛋白质及核酸的分子设计、药物设计和个体 化的医疗保健设计。 5. 其他。例如,序列对比、结构对比、计算机辅助基因识别、非编 码区分析和DNA语言研究、分子进化和比较基因组学、序列重叠 群装配、生物信息处理并行算法的研究、代谢网络分析、基因芯 片设计、蛋白质组学数据分析等。
方法:Needleman-Wunsch动态规划 算法;Smith-Waterman算法;SIM算 法。
工具:LALIGN;Align、B12Seq等。
多序列对比
多序列对比是把两条以上可能有系统进化关系 的序列进行对比的方法。
目前,使用最广泛的多序列对比程序是 CLUSTALX。它先将多个序列进行两两对比构 建距离矩阵,确立序列间的两两关系。然后根 据距离矩阵计算产生系统进化指导树,对关系 密切的序列进行加权。再从相似程度最高的两 条序列开始,逐步引入临近的序列并不断重新 构建对比,直到所有序列都被加入为止。
Enzyme 查询界面
用户可以根据酶的描述信息,与化合物的结合情 况,共作用分子等等进行查询
数据库介绍 (4) - PROSITE
蛋白质模体及结构域数据库 什么是结构域/模体?
结构域可以理解为蛋白家族共有的保守区域, 是对蛋白家族序列进行多序列比对后,对保 守区域进行抽提归纳得到的结果。
BLAST数据库搜索工具
BLAST是目前应用最广泛的序列相似性 搜索工具,比FASTA改进更多,搜索速 度更快,并建立在严格的统计学基础之 上。
BLAST程序
程序
数据库
简述
Blastp
蛋白质
可能找到具有远源进化关系的匹配序列
Blastn
核苷酸
适合寻找分值较高的匹配,不适合远源 关系
Blastx
这种方法得到的保守区域为在一级序列上保 守,与高级结构一般有相关性,但有时也有 例外。
一次多序列比对结果
Clustal 是多序列比对常用的工具,用户可以提交到 http://www.ebi.ac.uk/clustalw/) 比对,许多软件包如 DNAMAN, BIOEDIT中也整合了该软件
PROSITE 内容
蛋白质
适合新DNA序列和EST序列的分析,能 够发现未知核酸序列潜在的翻译产物
Tblastn 所有阅读框动态翻 适合寻找数据库中尚未标注的编码区 译的核苷酸序列
Tblastx 核苷酸序列6个阅 适合表达序列标签(EST)分析 读框的翻译产物
一 、数据库介绍
Swiss-Prot 公认注释信息最佳的蛋白数据库,包
蛋白质的生物信息学作为其中的一个 部分,成为生物信息学的重点发展 方向。
蛋白质生物信息学研究的主要内容
1. 基因功能表达谱的研究,即探讨基因在特定时空中的表达。 2. 确定核酸序列中编码蛋白质的基因,了解蛋白质的功能及其分子
基础,运用蛋白质结构模拟与分子设计进行功能预测。 3. 对已知的各种代谢途径和相关的生物分子的结构、功能及它们之
数据库介绍 (6) SWISS-MODEL Repository
基于序列相似性的蛋白三维结构建模系统, 用
户提交自己的蛋白序列,服务器端首先搜索与 提
交序列相似的三维结构已知的蛋白,根据已知 序
列结构模拟出用户提交蛋白的三维结构模型。
Thank you
含几乎所有已知蛋白。由专家参与每条 蛋白序列的筛选和校正,并进行详细注 释。注释信息包括蛋白质功能、结构域 信息、翻译后修饰、变异情况等等。
Swiss-Prot 序列格式
每条序列注释包括九部分:
Entry info Name and origin References comments Cross-references keywords Features
数据库搜索的工具
虽然各种搜索程序和算法各不相同,但 数据库搜索检出的结果基本相似,均采 用统计学评分,并按照相似程度排序。
目前,应用较广泛的序列相似性搜索工 具:FASTA、BLAST和BLITZ等。
对于DNA序列相似性检索,FASTA的敏 感度较高,但BLAST检索速度较快。
BLITZ的运算速度较慢,但其特异性较 高。
数据库搜索的概念
数据库搜索:通过序列相似性对比的算法,在 核酸序列数据库和蛋白质序列数据库中检索出 与被检序列具有一定相似性的序列。
数据库搜索的基础是序列的相似性对比。
被检测的序列与一个已知基因家族之间的进化 关系被确定之后,通过数据库搜索可以得到一 些相似序列,但它们之间的相似性程度具有差 别,因此,还需要判断其序列相似性程度。 (其他的研究方法和/或实验手段来验证)
相似性和同源性
序列的相似性(similarity):在序列对 比中描述两条序列之间相同碱基或氨基 酸残基所占比例。
序列的同源性(homology):从大量 数据中推断出的两个基因在进化上具有 共同祖先的结论。
序列两两对比
描述序列两两对比通常用打分矩阵的方 法。即两条序列分别作为矩阵的两维, 矩阵点是两维上对应两个序列的相似性 分数,分数越高则说明两个序列越相似。
用户可以输入名称,编号,物种,组织 等多种条件进行查询。
wk.baidu.com
SRS 查询界面
数据库介绍 (2) - TrEMBL
对三大核酸数据库(GENBANK, EMBL, DDBJ) 之一的EMBL通过计算机预测得到的蛋白质数据 库,虽然不可避免地存在某些错误,数据质量比 不上Swiss-Prot。但可以作为Swiss-Prot 的
sequence
tools
序列简单信息如名称、登记号 编码蛋白的基因信息 相关参考文献 蛋白功能性质概述 其它数据库中关于该记录的信息 蛋白关键词描述 蛋白性质如突变点,结构域等
蛋白序列
一些整合的分析工具
Swiss-Prot 查询
通过EXPASY中附带的网络搜索界面 SRS(sequence retrieval system) 进行。SRS是一个通用的查询系统,与 NCBI 提供的Entrez 提供类似功能。
PROSITE 主要保存两类信息:模式 (pattern)和谱(profile,权重矩 阵)。
模式可以理解为保守的氨基酸排列方式,通 常以氨基酸单字母方式排列.
Profile 为对保守区域每一位置氨基酸保守 情况进行打分构建的权重矩阵。
PROSITE 使用注意事项
Pattern主要可以用来预测某些生物活性 位点,如磷酸化位点、甲基化位点。 profile预测可靠性高,可以用来对新蛋 白进行分类和提供功能提示。
补充, 而且其中存在一些功能未知的新基因编码的产物, 可以作为开展功能研究的靶点。
数据库介绍 (3) - ENZYME
收集了很多常用酶的信息,包括功能描 述,酶切位点,以及一些相关链接。每 条纪录都按照国际生物化学与分子生物 学 命 名 委 员 会 ( Nomenclature Committee of the International Union of Biochemistry and Molecular Biology ,IUBMB)命名规 则进行命名。
双向聚丙烯酰胺凝胶电泳数据库。保存 了很多组织来源的双向电泳图谱,用户 可以提交自己的蛋白序列,根据等电点 及分子量显示在电泳图上的位置。该数 据库还提供了2-D 电泳的protocol, 以 及 构 建 2-D 电 泳 数 据 库 的 软 件 包 http://www.expasy.org/ch2d/ma ke2ddb.html,对有兴趣作2-D 电泳的 用户来说是一个很不错的入门网站。
序列对比的概念
在生物信息学研究中,最常用和最经典 的一个研究手段,就是通过比较分析获 得有用的信息和知识。将研究对象进行 相互比较来寻找研究对象可能具备的某 些特性。从核酸及蛋白质的一级结构方 面来分析序列的相同点和不同点,从而 能够推测它们的结构、功能及进化上的 联系。
序列对比的理论基础是进化学说。如果 两个基因和蛋白质序列之间具有足够的 相似性,就推测两者可能有共同的进化 祖先,经过序列内残基的替换、缺失以 及序列重组等遗传变异过程分别演化而 来。
蛋白质生物信息学
XXX
蛋白质生物信息学
◆ 蛋白质序列分析 ◆ 蛋白质结构基础 ◆ 三级结构测定
具体来说,生物信息学是把基因组DNA序列信息作为 源头,确定基因组序列中代表蛋白质和RNA的基因编 码区。同时,阐明基因组中大量存在的非编码区的信 息实质,破译隐藏在DNA序列中的遗传规律。在此基 础上,归纳和整理与基因组遗传信息释放及其调控相 关的转录谱和蛋白质谱的数据,从而揭示生命体的生 长、发育、代谢和进化的规律。
SMART http://smart.embl-heidelberg.de/ BLOCKS http://www.blocks.fhcrc.org PRINTS
http://www.bioinf.man.ac.uk/fingerPRINTSca n/
数据库介绍 (5) SWISS2DPAGE
蛋白的功能位点是与其三维结构紧密相 关的,局部区域符合某种pattern不能保 证一定会具有对应的性质,要根据实际 情况,谨慎对待pattern 预测结果。
补充:蛋白结构域数据库
除了PROSITE 之外,还有很多结构域数据库, 比较著名的有:
Pfam http://www.sanger.ac.uk/Software/Pfam/sear ch.shtml
间的相互作用进行整理,用以研究细胞发育、分化途径和疾病的 发生与发展的途径。 4. 将这些信息与生命体和生命过程的生理生化信息相结合,阐明其 分子机制,最终进行蛋白质及核酸的分子设计、药物设计和个体 化的医疗保健设计。 5. 其他。例如,序列对比、结构对比、计算机辅助基因识别、非编 码区分析和DNA语言研究、分子进化和比较基因组学、序列重叠 群装配、生物信息处理并行算法的研究、代谢网络分析、基因芯 片设计、蛋白质组学数据分析等。