结构生物信息学讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学(Bioinቤተ መጻሕፍቲ ባይዱormatics)
• 数据驱动 (data driven) • 基础
– 现代生物学基本原理 (中心法则、分子进化…) – 高通量数据采集手段 – 统计学 – 信息科学 (数据库、机器学习、模式识别、知识发现、互
联网…)
• 问题: 生物信息学分析中涉及到了哪些数据?
生物信息学的基本策略
最简单: 序列一致性 (sequence identity)
哪些共同特征? (2)
• 同源蛋白应该具有相对保守的功能 (催化同类化学反应、结合同类型的其他 分子等)
• 蛋白质功能依赖于三维结构
按照上述原理,我们同样应该能够根据三维 结构上的共同特征来判断蛋白质分子是否 同源。
最简单: 主链原子位置的均方根偏差(RMSD)
Content Identification Accession number(s) Date Description Gene name(s) Organism species Organelle Organism classification Taxonomy cross-reference Reference number Reference position Reference comment(s) Reference cross-reference(s) Reference group Reference authors Reference title Reference location Comments or notes Database cross-references Keywords Feature table data Sequence header Sequence data Termination line
--Merriam-Webster Dictionary
同源进化上有共同的起源
哪些共同特征? (1)
• 分子生物学的中心法则
转录 DNA
翻译 RNA
蛋白质
遗传信息:贮存在DNA的核苷酸序列中
进化中被复制以及发生变异的是 基因的核苷酸序列(以及相应的蛋白质序列)
因此,按照分子生物学的基本原理,我们应该根据核苷酸序列或者氨基酸序列上 的共同特征来判断序列的是否同源
1、从相似性推断同源性 相似性(similarity)
Similar:having characteristics in common
同源性(homology):
--Merriam-Webster Dictionary
A similarity often attributable to common origin
例:根据序列预测蛋白质在核内的定位
序列motif
蛋白在细胞核内定位
(核定位信号,NLS,nuclear localization signal)
http://cubic.bioc.columbia.edu/predictNLS/
分子生物学的模型: 转运蛋白识别NLS序列,复合物通过 核孔被主动转运到核内
the monopartite motif is characterised by a cluster of basic residues preceded by a helix-breaking residue. Similarly, the bipartite motif consists of two clusters of basic residues separated by 9-12 residues
'NLS cores are hexapeptides with at least four basic residue and neither acidic nor bulky residues' .
However, this motif matches only few nuclear and many non-nuclear proteins.
Sets of nuclear and non-nuclear proteins. SWISS-PROT release 38.0 with annotations of sub-cellular localisation (ignoring PUTATIVE, POTENTIAL, BY SIMILARITY). sorted all remaining proteins into two sets: (1) nuclear proteins (true positives, 3142 proteins) and (2) non-nuclear proteins (true negatives, 5910 proteins).
数据源: ftp://ftp.expasy.org/databases/swiss-prot/
手册: http://www.expasy.org/sprot/userman.html
Line code ID AC DT DE GN OS OG OC OX RN RP RC RX RG RA RT RL CC DR KW FT SQ (blanks) //
数据搜集
• 实验数据分析
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白? – 能否根据序列间的进化关系对实验数据进行扩展?
• Collecting initial set of NLS from literature.
– e.g. http://www.ncbi.nlm.nih.gov/entrez/ Search pubmed for “nuclear localization signal” Among the listed records “Nuclear localization signal-receptor affinity correlates
生物信息学的基本策略(2)
2、发现和利用不同特征间的关联关系 (Guilty by association)
例如:
序列整体特征
序列同源性
结构整体特征
序列局部特征(如motif)
结构局部特征
功能模式
关联关系的发现: 数据搜集、特征提取与数据建模、参数估计的 过程。知识发现。
关联关系的利用:数据检索、统计检验、实验验证的过程。知识 利用。
with in vivo localization in S. cerevis” “related articles”…
– 实验观察到的NLS有没有共同点? – 这些共同点是否足以区分核蛋白和非核蛋白
Positively charged residues are abundant in NLSs.
相关文档
最新文档