结构生物信息学..
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学(Bioinformatics)
• 数据驱动 (data driven) • 基础
– – – – 现代生物学基本原理 (中心法则、分子进化…) 高通量数据采集手段 统计学 信息科学 (数据库、机器学习、模式识别、知识发现、互 联网…)
• 问题: 生物信息学分析中涉及到了哪些数据?
生物信息学的基本策略
Occurrence in an entry Once; starts the entry Once or more Three times Once or more Optional Once Optional Once or more
Line code ID AC DT DE GN OS OG OC
Content Identification Accession number(s) Date Description Gene name(s) Organism species Organelle Organism classification
--Merriam-Webster Dictionary
同源进化上有共同的起源
哪些共同特征? (1)
• 分子生物学的中心法则
转录 DNA RNA 翻译 蛋白质
遗传信息:贮存在DNA的核苷酸序列中 进化中被复制以及发生变异的是 基因的核苷酸序列(以及相应的蛋白质序列) 因此,按照分子生物学的基本原理,我们应该根据核苷酸序列或者氨基酸序列上 的共同特征来判断序列的是否同源 最简单: 序列一致性 (sequence identity)
1、从相似性推断同源性 相似性(similarity)
Similar:having characteristics in common
--Merriam-Webster Dictionary
同源性(homology):
A similarity often attributable to common origin
• Collecting initial set of NLS from literature.
– e.g. http://www.ncbi.nlm.nih.gov/entrez/ Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization signal-receptor affinity correlates with in vivo localization in S. cerevis” “related articles”…
(核定位信号,NLS,nuclear localization signal) http://cubic.bioc.columbia.edu/predictNLS/
分子生物学的模型: 转运蛋白识别NLS序列,复合物通过 核孔被主动转运到核内
数据搜集
• 实验数据分析
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白? – 能否根据序列间的进化关系对实验数据进行扩展?
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白
Positively charged residues are abundant in NLSs. the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly, the bipartite motif consists of two clusters of basic residues separated by 9-12 residues 'NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues' . However, this motif matches only few nuclear and many non-nuclear proteins.
Sets of nuclear and non-nuclear proteins. SWISS-PROT release 38.0 with annotations of sub-cellular localisation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins). 数据源: ftp://ftp.expasy.org/databases/swiss-prot/ 手册: http://www.expasy.org/sprot/userman.html
例如: 序列同源性 结构整体特征
序列整体特征
序列局部特征(如motif) 功能模式
Leabharlann Baidu
结构局部特征
关联关系的发现: 数据搜集、特征提取与数据建模、参数估计的 过程。知识发现。 关联关系的利用:数据检索、统计检验、实验验证的过程。知识 利用。 例:根据序列预测蛋白质在核内的定位 序列motif 蛋白在细胞核内定位
哪些共同特征? (2)
• 同源蛋白应该具有相对保守的功能 (催化同类化学反应、结合同类型的其他 分子等) • 蛋白质功能依赖于三维结构
按照上述原理,我们同样应该能够根据三维 结构上的共同特征来判断蛋白质分子是否 同源。 最简单: 主链原子位置的均方根偏差(RMSD)
生物信息学的基本策略(2)
2、发现和利用不同特征间的关联关系 (Guilty by association)
• 数据驱动 (data driven) • 基础
– – – – 现代生物学基本原理 (中心法则、分子进化…) 高通量数据采集手段 统计学 信息科学 (数据库、机器学习、模式识别、知识发现、互 联网…)
• 问题: 生物信息学分析中涉及到了哪些数据?
生物信息学的基本策略
Occurrence in an entry Once; starts the entry Once or more Three times Once or more Optional Once Optional Once or more
Line code ID AC DT DE GN OS OG OC
Content Identification Accession number(s) Date Description Gene name(s) Organism species Organelle Organism classification
--Merriam-Webster Dictionary
同源进化上有共同的起源
哪些共同特征? (1)
• 分子生物学的中心法则
转录 DNA RNA 翻译 蛋白质
遗传信息:贮存在DNA的核苷酸序列中 进化中被复制以及发生变异的是 基因的核苷酸序列(以及相应的蛋白质序列) 因此,按照分子生物学的基本原理,我们应该根据核苷酸序列或者氨基酸序列上 的共同特征来判断序列的是否同源 最简单: 序列一致性 (sequence identity)
1、从相似性推断同源性 相似性(similarity)
Similar:having characteristics in common
--Merriam-Webster Dictionary
同源性(homology):
A similarity often attributable to common origin
• Collecting initial set of NLS from literature.
– e.g. http://www.ncbi.nlm.nih.gov/entrez/ Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization signal-receptor affinity correlates with in vivo localization in S. cerevis” “related articles”…
(核定位信号,NLS,nuclear localization signal) http://cubic.bioc.columbia.edu/predictNLS/
分子生物学的模型: 转运蛋白识别NLS序列,复合物通过 核孔被主动转运到核内
数据搜集
• 实验数据分析
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白? – 能否根据序列间的进化关系对实验数据进行扩展?
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白
Positively charged residues are abundant in NLSs. the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly, the bipartite motif consists of two clusters of basic residues separated by 9-12 residues 'NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues' . However, this motif matches only few nuclear and many non-nuclear proteins.
Sets of nuclear and non-nuclear proteins. SWISS-PROT release 38.0 with annotations of sub-cellular localisation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins). 数据源: ftp://ftp.expasy.org/databases/swiss-prot/ 手册: http://www.expasy.org/sprot/userman.html
例如: 序列同源性 结构整体特征
序列整体特征
序列局部特征(如motif) 功能模式
Leabharlann Baidu
结构局部特征
关联关系的发现: 数据搜集、特征提取与数据建模、参数估计的 过程。知识发现。 关联关系的利用:数据检索、统计检验、实验验证的过程。知识 利用。 例:根据序列预测蛋白质在核内的定位 序列motif 蛋白在细胞核内定位
哪些共同特征? (2)
• 同源蛋白应该具有相对保守的功能 (催化同类化学反应、结合同类型的其他 分子等) • 蛋白质功能依赖于三维结构
按照上述原理,我们同样应该能够根据三维 结构上的共同特征来判断蛋白质分子是否 同源。 最简单: 主链原子位置的均方根偏差(RMSD)
生物信息学的基本策略(2)
2、发现和利用不同特征间的关联关系 (Guilty by association)