第六章1生物信息学详细讲义

合集下载

生物信息学第六章蛋白质结构预测及分子设计ppt课件

构,PDP域更多外部链接(对于RecBCD多达26个)
更多有用的链接
▪ PDB的外部链接中Compute pI Mw点击Chain B (可计算各链分子量)
▪ 在打开的Compute pI/Mw页面中点击EX5B_ECOLI (ExPASy，大量信息，链接)
▪ 在打开的UniProtKB/Swiss-Prot页面中点击EcoCyc：EG10824MONOMER (biocyc，参与的反应/路径图)
3、输入要找的蛋白名称或ID号等(如RecBCD, E. coli DNA repair)
4、点击”Go” 5、点击感兴趣的结果(1W36,进入MMDB) 结果列表中包含相关蛋白(powered by BLAST)、文献、结构域 (domain)、配体(ligand)、3D缩略图、三维查看器
在MMDB看搜到蛋白的结构(NCBI)
实验数据
数据库搜索
结构域匹配
已知结构的同源蛋白？
有
同源建模
无二级
结构预测有
串线法
三维结构模型
可用的折叠模型？
无
从头预测
蛋白质的基本性质
蛋白质的基本性质：
相对分子质量氨基酸组成等电点（pI）消光系数
半衰期
不稳定系数总平均亲水性 …….
工具 AACompldent
Compute pI/Mw
蛋白质跨膜区特性 ▪ 典型的跨膜螺旋区主要是由20~30个疏水性氨基酸（Leu、Ile、Val、Met、Gly、
Ala等）组成； ▪ 亲水残基往往出现在疏水残基之间，对功能有重要的作用； ▪ 基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。跨膜蛋白序列“边界”原则 ▪ 胞外末端：Asp（天冬氨酸）、Ser（丝氨酸）和Pro（脯氨酸） ▪ 胞外-内分界区：Trp（色氨酸） ▪ 跨膜区：Leu（亮氨酸）、Ile（异亮氨酸）、Val（缬氨酸）、Met（甲硫氨酸

生物信息学课堂ppt课件

它是一门理论概念与实践应用并重的学科 ❖ bioinformatics这一名词在1991年左右才在文献中出现，还
只是出现在电子出版物的文本中。
5
产生生物信息学的
❖ ２０世纪后期，生物科学技术迅猛发展，无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据，以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律，这些规律将是解释生命之谜的关键，人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。
❖ 基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发；
❖ 后基因组时代--大规模基因组分析、蛋白质组分析。
8
重要性生物信息学的
❖ 生物信息学不仅是一门学科，更是一种重要的研究开发工具。 ❖ 从科学的角度来讲，生物信息学是一门研究生物和生物相关
系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理，人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。 ❖ 从工具的角度来讲，生物信息学几乎是今后所有生物（医药）研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后，人们才能选择该领域正确的研发方向。 ❖ 生物信息学不仅具有重大的科学意义，而且具有巨大的经济效益。它的许多研究成果可以较快地产业化，成为价值很高的产品。
分析(主要研究内容) 应用(多个领域)
主要由数据库、计算机网络和应用软件三大部分构成
2
定义
❖ 收集、维护、传播、分析以及利用在分子生物学研究中获得的大量数据。
生物信息学（bioinformatics）是生物学与计算机科学以及应用数学等学

生物信息学分析方法介绍PPT课件

生物信息学分析方法介绍
目录
• 生物信息学概述 • 基因组学分析方法 • 转录组学分析方法 • 表观遗传学分析方法 • 蛋白质组学分析方法 • 生物信息学分析流程和方法比较
01
生物信息学概述
生物信息学的定义和重要性
定义
生物信息学是一门跨学科的学科，它利用计算机科学、数学和工程学的原理和技术，对生物学数据进行分析、建模和解读，以揭示生命现象的本质和规律。
研究蛋白质的序列、结构和功能，以及蛋白质相互作用和蛋白质组表达调控机制。
研究基因转录本的序列、结构和表达水平，以及转录调控机制。
研究基因表达的表观遗传调控机制，如DNA甲基化、组蛋白修饰等。
通过对患者基因组、蛋白质组和转录组等数据的分析，为个性化医疗和精准医学提供支持。
02
基因组学分析方法
基因组注释
基因组注释是指对基因组序列中的各个区域进行标记和描述的过程，包括基因、转录单元、重复序列、调控元件等。
注释信息可以通过数据库（如RefSeq、 GeneBank等）或注释软件（如GATK、 ANNOVAR等）获取。注释信息对于理解基因组的生物学功能和进化关系具有重要意义。
基因组变异检测
基因组变异检测是指检测基因组序列中的变异位点，包括单核苷酸变异、插入和缺失等。
VS
变异检测对于遗传疾病研究、进化生物学和生物进化研究等领域具有重要意义。常用的变异检测方法有SNP检测、CNV检测等，它们基于不同的原理和技术，具有不同的适用范围和精度。
03
转录组学分析方法
RNA测序技术
利用生物信息学方法和算法，对 RNA测序数据进行基因融合检测，寻找融合基因及其融合方式。
基因融合检测结果可以为研究肿瘤等疾病提供重要线索，有助于深入了解疾病发生发展机制。

生物信息学介绍(PPT20页)

– 蛋白质的结构和功能预测
• 蛋白质怎样实现细胞和有机体的动力学：
– 生命为什么是蛋白质的运动方式
• 个体发育和系统发育的法则和机理：
– 肌体如何长成、运作、衰老和进化
• 征服疾病：
– 主要循环系统疾病、癌症、病毒源性疾病、遗传病和衰老
• 保护和利用生物资源，开发和发展生物产业：
– 生物学怎样造福人类
•
1、
功的路。2020/10/262020/10/26Monda y, October 26, 2020
成功源于不懈的努力，人生最大的敌人是自己怯懦
•
2、
。2 020/10/ 262020 /10/26 2020/10 /2610/ 26/202 0 12:03:09 AM
每天只看目标，别老想障碍
–蛋白质的三维结构
– 蛋白质的物理性质预测
– 其他特殊局部信息：其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋 (Coiled Coils)等，具有明显的序列特征和结构特征，也可以用计算方法加以预测
• cDNA 芯片相关的数据管理和分析
实验室信息管理系统基因表达公共数据库
• 分子进化
基因芯片流程（二）
6. 图象处理（采用专门软件，对图象进行分析，提取每个点上的数字信号），得到原始数据表。
7. 数据校正和筛选（对cy5或cy3信号进行校正，消除实验或扫描等各环节因素对数据的影响，同时利用筛选规则对数据中的“坏点”，“小点”，“低信号点”进行筛选，并作标记。）
8. 差异表达基因的确定（采用ratio值对差异基因进行判断，或采用统计方法如线性回归、主成分分析、调整P值算法等对差异基因进行统计推断）
远期任务
• 读懂人类基因组，发现人类遗传语言的根本规律，从而阐明若干生物学中的重大自然哲学问题，像生命的起源与进化等。这一研究的关键和核心是了解非编码区

生物信息学PPT课件

生物信息学在农业研究中的应用
1 2 3
作物育种
生物信息学可以通过基因组学手段分析作物的遗传变异，为作物育种提供重要的遗传资源。
转基因作物研究
通过生物信息学分析，可以了解转基因作物的基因表达和性状变化，为转基因作物的研发和应用提供支持。
农业环境监测
生物信息学可以帮助研究人员监测农业环境中的微生物群落、土壤质量等指标，为农业生产提供科学依据。
特点
生物信息学具有数据密集、技术依赖、多学科交叉、应用广泛等特点。
生物信息学的重要性
促进生命科学研究
提高疾病诊断和治疗水平
生物信息学为生命科学研究提供了强大的数据分析和挖掘工具，有助于深入揭示生命现象的本质和规律。
生物信息学在疾病诊断和治疗方面具有重要作用，通过对基因组、蛋白质组等数据的分析，有助于实现个体化精准医疗。
03 生物信息学技术与方法
基因组测序技术
基因组测序技术概述
基因组测序是生物信息学中的一项关键技术，它能够测定生物体的全部基因序列，为后续的基因组学研究提供基础数据。
测序原理
基因组测序主要基于下一代测序技术，如高通量测序和单分子测序，通过这些技术可以快速、准确地测定生物体的基因序列。
测序应用
基因组测序在医学、农业、生物多样性等多个领域都有广泛应用，如疾病诊断、药物研发、作物育种等。
生物信息学ppt课件
目录
• 生物信息学概述 • 生物信息学的主要研究领域 • 生物信息学技术与方法 • 生物信息学的应用前景 • 生物信息学的挑战与展望 • 案例分析
01 生物信息学概述
定义与特点
定义
生物信息学是一门跨学科的学科，它利用计算机科学、数学和工程学的原理、技术和方法，对生物学数据进行分析、解释和利用，以解决生物学问题。

生物信息学-06-1-NCBI-PubMed and PMC BMC

Entrez的用途
• PubMed书目文献数据 • 获取GenBank, EMBL等数据库的核酸序列； • 获取 Swiss-port,PIR,PRF,PDB 等蛋白质序列；从核酸序列翻译到蛋白质的序列； • 蛋白质三维结构数据及大分子模式（MMDB）等其他生物信息数据库检索 • 获取基因组图谱信息
• 国家生物技术信息中心(National Center for Biotechnology Information, 简称 NCBI) 是美国国家医学图书馆(NLM)的一部分(该图书馆是美国国家卫生研究所的一部分). • NCBI位于马里兰州的贝塞斯达, 建立于 1988年. NCBI保管GenBank的基因测序数据和Medline的生物医学研究论文索引. 所
#4 Search child* aids prevent* Field: Title/Abstract,Limits:Review
检索式：(child* aids nursing) OR( #4)
规范化检索式： ( children aids nursing) OR (#4)
743
三、辅助检索区(2)：
三、辅助检索(1)： Limits
• 功能：
将搜索范围设定在一个特定的域
• • •
将搜索限定在某一语种出版的某一特定的文献类型
设定只搜索包含标题／摘要的文献设定搜索范围为PubMed的一个子数据库将搜索范围设定在特定的年龄组、性别组、人类等
辅助检索区：预检（ Preview/Index ）
NCBI的四项计划
1. 2. 3. 4. 基本研究数据库和软件教育训练
• NCBI有一个多学科的研究小组包括计算机科学家，分子生物学家，数学家，生物化学家，实验物理学家，和结构生物学家，集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献，而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织，序列的分析，和结构的预测。

生物信息学课件

基因组组装与注释
基因组组装
01
基因组组装是将测序得到的碎片组装成一个完整的基因组序列
。
基因组注释
02
基因组注释是对基因组序列进行分析，识别出基因和其他功能
元件。
基因组组装与注释的重要性
03
基因组组装与注释是理解基因组结构和功能的基础，对于研究
生物进化、疾病发生和治疗具有重要意义。
03
生物信息学应用
• 详细描述：单基因遗传病通常是由单个基因的突变引起的，这些突变可能是显性或隐性。在研究中，生物信息学家可以通过对患者的基因组进行测序和分析，识别与疾病相关的基因变异。他们还可以通过比较健康个体的基因组与患病个体的基因组，发现差异并确定导致疾病的特定突变。此外，生物信息学家还可以使用计算机模型和算法来模拟基因组变异的影响，并预测其对蛋白质功能和细胞过程的影响。这些信息有助于医生和研究人员更好地理解疾病的病因、病理生理机制以及潜在的治疗方法。
THANK YOU
数据库建设
研究如何建立和维护生物信息学数据库，包括数据库设计、数据存储和管理、数据查询和可视化等技术。
02
生物信息学基础
遗传密码子
遗传密码子的定义
遗传密码子是DNA和RNA中携带遗传信息的序列。
遗传密码子的特点
遗传密码子具有方向性、连续性、通用性和简并性。
遗传密码子的破译
科学家们通过研究基因组序列，逐渐破译了遗传密码子的秘密。
以单分子DNA测序为主要技术，具有读取长度长、准确率高、速度快等优点，但设备昂贵且维护成本高。
生物信息学数据库
1 2 3
NCBI
美国国立生物技术信息中心，提供生物医学相关信息和数据，包括基因组测序数据、基因表达谱数据等。

生物信息学(东南大学版)精选ppt

09.04.2020
41
遗传连锁图：通
过计算连锁的遗
传标志之间的重
组频率，确定它
配子
们的相对距离，
一般用厘摩（cM，
即每次减数分裂
的重组
频率为1%）
表示。
末期 II
晚期 II
中期 II
间期前期 I
同源染色体形成配对
中期 I
前期 II
晚期 I 发生交换
09.04.2020
42
物理图谱
5、《生物信息学手册》郝柏林中科院物理所上海科学技术出版社
6、《简明生物信息学》钟扬复旦大学高等教育出版社
09.04.2020
2
http://
编号
第一章第二章第三章第四章第五章第六章第七章第八章
第九章
第十章
09.04.2020
网上资源
名称
书稿(word)
生物信息学引论分子生物学基础
破译遗传语言、识别基因预测蛋白质结构和功能认识生物界信息存贮和传递的本质研究药物作用机制和开发新药
09.04.2020
31
第二节生物信息学的发展历史
生物科学和技术的发展
人类基因组计划的推动
生物信息学基本思想的产生
二十世纪 50年代
09.04.2020
生物信息学的迅速发展
09.04.2020
生物体生长发育的本质就是遗传信息的传递和表达
17
DNA通过自我复制，在生物体的繁衍过程中传递遗传信息
基因通过转录和翻译，使遗传信息在生物个体中得以表达，并使后代表现出与亲代相似的生物性状。
基因控制着蛋白质的合成

第六章生物信息学

2011-12-9
RNA
蛋白质
19
DNA
基因的DNA序列基因的DNA序列 DNA
前体RNA 对应关系遗传密码 mRNA
蛋白质序列
2011-12-9
多肽链
20
(2)蛋白质的结构决定其功能
蛋白质功能取决于蛋白质的空间结构蛋白质功能取决于蛋白质的空间结构功能取决于蛋白质的空间蛋白质结构决定于蛋白质的序列（这是目蛋白质结构决定于蛋白质的序列（序列前基本共认的假设），），蛋白质结构的信息前基本共认的假设），蛋白质结构的信息隐含在蛋白质序列之中。隐含在蛋白质序列之中。
2011-12-9
11
二、生物分子信息
分子
生物信息的载体
细胞
存贮、复制、存贮、复制、传递和表达遗传信息的系统
2011-12-9
12
生物信息学主要研究两种信息载体
DNA分子分子蛋白质分子
2011-12-9
13
2011-12-9
14
From the Cell to Protein Machines
2011-12-9
6
概念（广义）
生物体系和过程中信息的存贮、的存贮、传递和表达信息科学细胞、组织、器官的生理、细胞、组织、器官的生理、病理、药理过程的中各种生物信息生命科学中的信息科学
2011-12-9
7
生物信息学概念（狭义）生物信息学概念（狭义）
应用信息科学的理论、方法和技术，管理、应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据一般提到的“生物信息学”是就指这个狭义的一般提到的“生物信息学” 概念，更准确地说，应该是分子生物信息学概念，更准确地说，（Molecular Bioinformatics））

生物信息学讲义

生物信息学讲义第一章：生物信息学概述什么是生物信息学：又称计算生物学（computational biology），是生物学与信息学、计算机科学相互交叉形成的新兴学科，它应用数学、计算机科学的方法研究生物学问题，它所研究的主要对象是生物学的数据。

生物信息学是为了适应人类基因组计划（Human Genome Project，HGP）的需要产生的，最主要的应用是对人类基因组计划所得到的大量生物学数据进行存储、检索和分析。

目前生物信息学已被广泛的应用于医学、人类学、结构生物学和蛋白质组学（Proteomics）等研究领域。

生物信息学的研究内容：广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。

这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。

具体地说，生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。

生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传信息传递的中心法则，因而必然有机地连接在一起。

1、基因组序列数据的拼接和组装基因组研究的首要目标是获得人的整套遗传密码。

人的遗传密码有32亿个碱基，而目前DNA测序多采用鸟枪法（shotgun），每个反应只能读取几百到上千个碱基。

在进行测序前，首先应用物理方法将人的基因组打碎，得到基因组片段进行测序，然后再把这些片段重新拼接起来。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（2）统计的方法
–
–
经验性方法结构规律提取方法同源模型化方法
蛋白质序列： ↓ 二级结构：
3.1、二级结构预测概述
–
– –
蛋白质的二级结构预测的基本依据是：每一段相邻的氨基酸残基具有形成一定二级结构的倾向。二级结构预测问题是模式分类问题二级结构预测的目标：

判断每一段中心的残基是否处于螺旋、折叠、转角（或其它状态）之一的二级结构态，即三态。
(5) 综合方法综合方法不仅包括各种预测方法的综合，而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。
– – –
多个程序同时预测，综合评判一致结果序列比对与二级结构预测双重预测
首先预测蛋白质的结构类型然后再预测二级结构
3.3、利用进化信息预测蛋白质的二级结构

蛋白质序列家族中氨基酸的替换模式是高度特异的，如何利用这样的进化信息是二级结构预测的关键。蛋白质二级结构预测软件系统PHD
–
–
第一步工作是形成同源序列的多重对比排列第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。
4、常用蛋白质数据库介绍
主要的蛋白质数据库有: 存储蛋白质结构的PDB(Protein Data Bank),进行蛋白质结构比较的SCOP和CATH,以及存储次级结构为主的Pfam等.
/ β蛋白
1.2 蛋白质基本特性分析
一级结构的基础上可分析：分子质量、分子式、等电点、氨基酸组成、理论消光系数、疏水性、稳定性等物理、化学特征。常用软件：ProtParam /tools/protparam.html
1.2 蛋白质基本特性分析
蛋白质结构域、基序与结合部位分析，以此来建立结构域的数据库和相应预测模型。主要数据来源于SCOP 和CATH等结构分类数据库。通过PredictProtein (http://cubic /predicProtein)可获得有关的大部分信息。结构域：多肽链上那些可折叠为球状结构的特殊片段，并发挥特殊的生物学功能。基序(motif)：通常是指蛋白质相互作用中最小的功能单位，一般位于球形蛋白质的表面。结合部位(binding site):则是指蛋白与蛋白或其配体结合的具体部位，通常是一个或几个氨基酸残基。
是一种基于单个氨基酸残基统计的经验预测方法。通过统计分析，获得的每个残基出现于特定二级结构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。

蛋白质二级结构的组成规律性比较强三种基本二级结构平均占氨基酸残基的85%

各种二级结构非均匀地分布在蛋白质中
–
有些蛋白质中含有大量的螺旋

对于β折叠的形成规律：对于β折叠，也存在着一些特征的亲疏水残基间隔模式，埋藏的β折叠通常由连续的疏水残基组成，一侧暴露的β折叠则通常具有亲水-疏水的两残基重复模式。原则上，通过在序列中搜寻特殊的亲疏水残基间隔模式，就可以预测α螺旋和β折叠。

(4) 同源分析法将待预测的片段与数据库中已知二级结构的片段进行相似性比较，利用打分矩阵计算出相似性得分，根据相似性得分以及数据库中的构象态，构建出待预测片段的二级结构。该方法对数据库中同源序列的存在非常敏感，若数据库中有相似性大于30%的序列，则预测准确率可大大上升。

(2) GOR方法是一种基于信息论和贝叶斯统计学的方法 GOR将蛋白质序列当作一连串的信息值来处理 GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而且考虑相邻残基种类对该位置构象的影响
序列窗口
中心残基
窗口中各个残基对中心残基二级结构的支持程度
两个事件S和R的条件概率P(S|R) 即在R发生的条件下，S发生的概率定义信息为：
–
如疏水性、极性、侧链基团的大小等，根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。

“疏水性”是氨基酸的一种重要性质，疏水性的氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部。

α螺旋的形成规律：在一段序列中发现第i、i+3、i+4位（如1、4、 5）是疏水残基时，这一片段就被预测为α螺旋；当发现第i、i+1、i+4位（如7，8，11）为疏水残基时，这一片段也被预测为α螺旋。
f H , A / f H ', A） log( f H ' / f H )
log(( 240 / 390 ) /(150 / 390 )) log(( 1050 / 1830 ) /( 780 / 1830 )) 0 . 7650
(3) Lim方法——立体化学方法氨基酸的理化性质对二级结构影响较大在进行结构预测时考虑氨基酸残基的物理化学性质
二级结构预测的方法大体分为三代：
–
第一代是基于单个氨基酸残基统计分析

从有限的数据集中提取各种残基形成特定二级结构的倾向，以此作为二级结构预测的依据。统计的对象是氨基酸片段片段的长度通常为11-21 片段体现了中心残基所处的环境在预测中心残基的二级结构时，以残基在特定环境形成特定二级结构的倾向作为预测依据
–
例如：，1050个处于非螺旋态库中共有390 个丙氨酸（A），有240 个A处于螺旋态，其余 150个 A 处于非螺旋态。可得： I ( H ; A ) log(
f H 780 / 1830 f H ' 1050 / 1830 f H , A 240 / 390 f H ', A 150 / 390
1.3.2 折叠识别(fold recognition)
又称反向蛋白折叠（reverse protein folding）,将待分析蛋白质序列作为查询单位，查找几种常用的折叠数据库，如SCOP、CATH 和DALI等，再对其3D结构进行预测。基本原理：根据识别出的已知蛋白质折叠区，来对未知蛋白质的折叠结构进行指认。可能原因：①趋异进化（divergent evolution） ②趋同进化（convergent evolution） ③序列变化千千万万，但折叠方式屈指可数,导致不相关的蛋白质其折叠结构也有某种相似性 ④折叠分类方法的错误,产生结构的相似性,即所谓的假阳性结果。
2.2 核磁共振(NMR)光谱分析
与X-射线晶体结构分析相比较,NMR技术无须制备晶体标本,可在溶液中直接测定,也可进行固相测定,因此利用 NMR法使得某些无法获得晶体结构的蛋白质或非液相蛋白质的结构测定成为可能。原理:分析受磁场作用下,经磁力加速旋转的原子核不同状态间转换时的情形。
3、蛋白质二级结构预测
I ( S ; R ) log[ P ( S | R ) / P ( S )]

若S和R无关，则 I(S; R)=0 若R的发生有利于S的发生，则I(S; R)>0 若R的发生不利于S的发生，则I(S; R)<0
I(S;
R)在二级结构预测中的含义
R代表中心氨基酸及其所处环境 – S代表二级结构类型 – I(S; R)代表中心氨基酸处于S的信息值
蛋白质结构预测问题 ….-Gly-Ala-Glu-Phe-….
序列——结构——功能
FUNCTION
结构预测问题
….-Gly-Ala-Glu-Phe-….
?
FUNCTION
解决方法
….-Gly-Ala-Glu-Phe-….
！
FUNCTION
蛋白质结构预测主要有两大类方法：
（1）理论分析方法
–
通过理论计算（如分子力学、分子动力学计算）进行结构预测。对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。包括：
2.1 X-衍射蛋白质晶体结构分析
X-射线晶体结构分析是解析生物大分子结构与功能的基本方法.该法首先是将待分析的纯化蛋白质形成晶体, 然后利用X-衍射技术得到该晶体的相关数据,整合成相应的图象,存储于结构数据库中。高通量晶体结构分析中的几大重要环节是:数据处理与分析、重原子的定位、密度修饰、分子替换、图形整合、模型加工和确认。
基本策略（1）相似序列→相似结构
QLMGERIRARRKKLK QLMGAERIRARRKKLK
结构？
基本策略（2）分类分析
α 螺旋
提取样本
预测….-Gly-Ala-Glu-Phe-…. 聚类分析
学习分类规则
3.2、蛋白质二级结构预测方法
(1)经验参数法
经验参数法由Chou 和Fasman在70年代提出来
1.3.3 从头开始折叠(ab initio folding)
直接根据蛋白质序列的理化特征预测其构象的方法。原理：基于蛋白质一级结构决定其空间结构。
2、蛋白质结构分析的技术平台
目前蛋白质结构分析主要有以下几大技术平台：结构生物信息学、X-衍射蛋白质晶体结构分析、核磁共振(NMR)光谱分析、电镜技术。
1.3 蛋白质拓扑结构、折叠和三维结构模型
通过蛋白质的3D模型来推断和预测次级结构是目前结构生物信息学的热点之一。目前应用最广泛的DSSP(http://www.cmbi.kun.nl/gv/dssp) 程序，它是基于骨架之间的氢键模型建立的程序。次级结构主要用途：①预示折叠方式②蛋白质结构视观中的直觉方式③影响序列的比对④与功能密切相关

如血红蛋白和肌红蛋白
–
而一些蛋白质中则不含或者仅含很少的螺旋

如铁氧蛋白
–
有些蛋白质的二级结构以折叠为主
如免疫球蛋白例：肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成螺旋肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成螺旋