第6章 蛋白质生物信息学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究展望
由于生物信息学是基于分子生物学与多种学科交叉而成 的新学科,现有的形势仍表现为各种学科的简单堆砌, 相互之间的联系并不是特别的紧密。在处理大规模数据 方面,没有行之有效的一般性方法;而对于大规模数据 内在的生成机制也没有完全明了,这使得生物信息学的 研究短期内很难有突破性的结果。
研究展望
利用SOPMA预测VH-L-L的二级结构,结 果显示,二级结构中α螺旋占15.56%,β 折叠34.95%,β转角12.24%,无规则卷 曲37.24%
ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGTCAT AATATCCAGAGGAGacatccagatgacccagtctccatcctccctgtctgcatctgtaggaga cagagtcACCATCACTTGCCAGGCGAGTCAGGACATCAGCAACTATTTAAATTG GTATCAGCAGAAACCAGGGAAAGCCCCTAAACTCCTGATCTACGATGCATCC AATTTGGAAACAGGGGTCCCATCAAGGTTCAGTGGAAGTGGATCTGGGACA GATTTTACTTTCACCATCAGCAGCCTGCAGCCTGAAGATATTGCAACATATTT CTGTCAACACTTTGATCATCTCCCGCTCGCTTTCGGCGGAGGGACCAAGGTG GAGATCAAACGT ACTGTGGCTGCACCATCTGTCTTCATCTTCC CGCCATCTGATGAGCAGTTGAAATCTGGAACTGCCTCTGTTGTGTGCCTGCT GAATAACTTCTATCCCAGAGAGGCCAAAGTACAGTGGAAGGTGGATAACGCC CTCCAATCGGGTAACTCCCAGGAGAGTGTCACAGAGCAGGACAGCAAGGAC AGCACCTACAGCCTCAGCAGCACCCTGACGCTGAGCAAAGCAGACTACGAG AAACACAAAGTCTACGCCTGCGAAGTCACCCATCAGGGCCTGAGCTCGCCC GTCACAAAGAGCTTCAACAGGGGAGAGTGT
一次数据库:实验获得的原始数据。简单归类 整理、注释。Genbank、Swiss-Prot、PDB 二次数据库:在一次数据库、实验数据和理论 分析的基础上,根据研究内容的需要,对相关 生物知识和信息进一步分析整理。包括人类基 因组图谱库GDB、转录因子和结合位点库 TRANSFAC、蛋白质结构家族分类库SCOP等。
核心内容是研究如何通过对DNA序列的统计计 算分析,更加深入地理解DNA序列,结构,演 化及其与生物功能之间的关系。 研究课题涉及到分子生物学,分子演化及结构 生物学,统计学及计算机科学等许多领域。
研究过程
以数据(库)为核心 1 数据库的建立 2 生物学数据的检索 3 生物学数据的处理 4 生物学数据的利用:计算生物学
第二节、蛋白质常用数据库
一、核酸数据库 NCBI的Genbank、EMBL、DDBJ等
二、蛋白质数据库
(一)蛋白序列数据库:SWISS-PROT、PIR 、TreEMBL、UniProt、GenPept
(二)蛋白序列二次数据库
蛋白保守区域和功能位点数据库,PROSITE、 PRINTS、BLOCKS
轻链全长(L)DNA序列(708bp)
GGTGGTGGTGGCTCTGGCGGTGGTGGCT CTGGTGGCGGTGGTTCT 连接肽(G4S)3 蛋白质分子设计:VH-L-L
VH
linker
VL
CL
利用DNAman对VH-L-L的限制性内切酶位 点分析,结果显示VH-L-L有31个限制性酶 切位点,最多的是Eco57Ⅰ、TthlllⅠ分别 有三个酶切位点。
蛋白质的亲疏水性是影响蛋白质空间结构 的因素之一。利用ProtScale分析氨基酸亲 水性/疏水性,预测结果显示该氨基酸序列 中亲水性和疏水性区域间隔存在,小部分 为中性,在氨基酸序列20、170处出现了 较高的疏水性,此处富含疏水性氨基酸。 总体来说,亲水氨基酸多于疏水氨基酸, 因此可以认为VH-L-L是亲水性蛋白
结果显示VH-L-L蛋白由392个氨基酸组成的稳定蛋白,分子 式为C1867H2894N494O596S11 ,分子量42149.1,等电点5.98。 理论推导半衰期为:30h(体外,哺乳动物的网织红细胞内)、 20h(体内,酵母细胞内)、10h(体内,大肠杆菌)。不稳定参 数是38.92,属于稳定蛋白。 含的氨基酸如图所示:Ser(S),Glu(G),Thr(T)最多,分别 占15.1%,9.9%,7.7%;不含Pyl(0),Sec(U)。总带正电 荷残基(Asp+Glu)为32,负电荷残基(Arg+Lys)为29。总的亲 水性平均系数-0.169,预测该蛋白属于亲水性蛋白。
结构?
基本策略(2) 分类分析
α 螺旋
提取样本
聚类分析
预测….-Gly-Ala-Glu-Phe-….
学习分类规则
蛋白质二级结构预测程序
(1)nnPredict 神经网络法 (2)PredictProtein (3)SSPRED,序列比对 (4)SOPMA 几种预测方法的综合。准 确率最高
蛋白质结构预测主要有两大类方法:
(1)理论分析方法
通过理论计算(如分子力学、分子动力学计算)进 行结构预测。
(2)统计的方法
对已知结构的蛋白质进行统计分析,建立序列到结 构的映射模型,进而对未知结构的蛋白质根据映射 模型直接从氨基酸序列预测结构。 包括:经验性方法(Chou-Fasman)、结构规律提 取方法(神经网络方法)、同源模型化方法
生物信息学作为一门新的学科领域,把基 因组DNA序列信息分析作为源头,在获得蛋 白质编码区的信息后进行蛋白质空间结构 模拟和预测,然后依据特定蛋白质的功能 进行必要的药物设计。 基因组信息学,蛋白质空间结构模拟以及 药物设计构成了生物信息学的3个重要组成 部分。
第二节 蛋白质常用数据库及应用
二、生物信息学与蛋白质工程
(一)蛋白质序列分析,预测其理化性质、 空间结构及生物学功能 (二)蛋白质结构预测 理论分析法:在理论计算的基础上预测 统计分析法:建立序列-结构的映射模型 (三)蛋白质功能预测P162 (四)蛋白质分子设计
三、生物信息学与蛋白质组学
1994、澳大利亚Wilkins和Willians提出蛋白质 组:由全部基因表达的全部蛋白质及其存在方 式,是一种细胞、组织或完整的生命体在特定 时空上所拥有的全套蛋白质 蛋白质组学:以蛋白质为研究对象,阐明某生 物体全部蛋白质的表达模式及功能模式 生物信息学理论、技术方法和软件等在蛋白质 组学相关数据库的建立、应用以及蛋白质组分 析等方面具有重要的应用
有些蛋白质中含有大量的螺旋
如血红蛋白和肌红蛋白
而一些蛋白质中则不含或者仅含很少的螺旋
如铁氧蛋白
有些蛋白质的二级结构以折叠为主
如免疫球蛋白 例:肽链Ala(A)-Glu(E)-Leu(L)-Met(M) 倾向于形成 螺旋 肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成 螺旋
研究内容
1、生物信息的收集、存储、管理与 提供 2、基因组序列信息的提取和分析 3、功能基因组相关信息分析 4、生物大分子结构模拟和药物设计 5、生物信息分析的技术与方法研究
发展条件
2001年2月,人类基因组工程测序 的完成,使生物信息学走向了一个 高潮。由于DNA自动测序技术的快 速发展,DNA数据库中的核酸序列 公共数据量以每天106bp速度增长, 生物信息迅速地膨胀成数据的海洋。 毫无疑问,我们正从一个积累数据 向解释数据的时代转变,数据量的 巨大积累往往蕴含着潜在突破性发 现的可能。 “生物信息学”正是从 这一前提产生的交叉学科。
要真正解决这一问题,最终不能从计算机科学 得到,真正地解决可能还是得从生物学自身, 从数学上的新思路来获得本质性的动力。毫无 疑问,正如Dulbecco1986年所说:"DNA序列 是人类的真谛,这个世界上发生的一切事情, 都与这一序列息息相关"。但要完全破译这一 序列以及相关的内容,我们还有相当长的路要 走。
每种氨基酸出现在各种二级结构中倾向或者 频率是不同的
例如:Glu主要出现在螺旋中 Asp和Gly主要分布在转角中 Pro也常出现在转角中,但是绝不会出现在 螺旋中
可以根据每种氨基酸残基形成二级结构的倾 向性或者统计规律进行二级结构预测
基本策略(1) 相似序列→相似结构
QLMGERIRARRKKLK QLMGAERIRARRKKLK
IBaidu NhomakorabeaI
蛋白质 序列:
蛋白质二级结构预测
↓
二级结构:
↓
1、二级结构预测概述
蛋白质的二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二 级结构的倾向。 二级结构预测问题是模式分类问题 二级结构预测的目标:
判断每一段中心的残基是否处于螺旋、折叠、 转角(或其它状态)之一的二级结构态,即三态。
经验参数法
由Chou 和Fasman在70年代提出. 是一种基于单个氨基酸残基统计的经验预测方 法。 通过统计分析,获得的每个残基出现于特 定二级结构构象的倾向性因子,进而利用这些 倾向性因子预测蛋白质的二级结构。
(1)
经验参数法 蛋白质二级结构的组成规律性比较强 三种基本二级结构平均占氨基酸残基的 85% 各种二级结构非均匀地分布在蛋白质中
第六章 生物信息学的应用
第一节生物信息学与蛋白质工程 一、生物信息学概述
生物信息学是利用应用数学、信息学、统计 学和计算机科学的方法研究生物学的问题。
1987年,林华安首创Bioinformation 一词,被誉为”世界生物信息之父”。
概述
生物信息学分子生物学与信息技术(尤其是互 联网技术)的结合体。 研究材料和结果就是各种各样的生物学数据 研究工具是计算机 研究方法包括对生物学数据的搜索(收集和 筛选)、处理(编辑、整理、管理和显示) 及利用(计算、模拟)。
利用生物信息学软件DNAman将VH-L-L的核苷酸 序列翻译为氨基酸序列
利用NCBI提供的ORF Finder预测VH-L-L的 ORF,从预测结果看出VH-L-L是一段连续 的较长的ORF,它可能是一个完整的编码 序列
利用ProtParam对VH-L-L的氨基酸序列及基本 理化性质进行了分析。
利用Tmpred分析VH-L-L的跨膜区,分析表 明,该序列无跨膜区,不是跨膜蛋白。可 以预测该蛋白在膜外
利用NetPhos进行磷酸化位点分析,结果 显示磷酸化位点主要包括丝氨酸Ser位点: 28个,苏氨酸Thr: 5 个,酪氨酸Tyr: 3个
利用TargetP对VH-L-L蛋白的亚细胞定位 进行预测,结果表明,VH-L-L是分泌到 细胞周质的蛋白
(三)蛋白结构数据库
三维结构数据库PBD、MMDB
全人源抗EGFR单克隆抗体
红色字体为信号肽,标黄部分为可变区重链可变区(HV) DNA序列(423bp)
ATGGATTTTCAGGTGCAGATTTTCAGCTTCCTGCTAATCAGTGCCTCAGT CATAATATCCAGAGGA CAGGTGCAGCTGCAGGAGTC GGGCCCAGGACTGGTGAAGCCTTCGGAGACCCTGTCCCTCACCTGCAC TGTCTCTGGTGGCTCCGTCAGCAGTGGTGATTACTACTGGACCTGGATT CGGCAGTCCCCAGGGAAGGGACTGGAGTGGATTGGACACATCTATTACA GTGGGAACACCAATTATAACCCCTCCCTCAAGAGCAGACTCACCATATCA ATTGACACGTCCAAGACTCAGTTCTCCCTGAAGCTGAGTTCTGTGACCG CTGCGGACACGGCCATTTATTACTGTGTGCGAGATCGAGTGACTGGTGC TTTTGATATCTGGGGCCAAGGGACAATGGTCACCGTCTCTTCA