Comparative Protein Structure Modeling using modeller
CS专业研究方向详解(1)
美国大学CS专业十三大研究方向美国大学CS专业的研究分支也超级多,不同分支对学生的要求也会不同,因此,学生们要依照自己的条件选择适合自己的研究方向。
一、体系结构、编译器和并行计算 Architecture, Compilers and Parallel Computing 体系结构和编译器的研究要紧集中在硬件设计,编程语言和下一代编译器。
并行计算研究的包括范围很广,包括并行计算的计算模型,并行算法,并行编译器设计等。
二、系统与网络 Systems and Networking可细分为:(1)网络与散布式系统(Networking and distributed systems):移动通信系统,无线网络协议(wireless protocols),Ad-hoc网络,效劳质量治理(Quality of Service management,QoS),多媒体网络,运算机对等联网(peer-to-peer networking, P2P),路由,网络模拟,主动队列治理(active queue management, AQM)和传感器网络(sensor networks)。
(2)操作系统(Operating system):散布式资源治理,普适计算(ubiquitous computing/pervasive computing)环境治理,反射中间件(reflective middleware),中间件元级操作系统(middleware “meta-operating systems”),面向对象操作系统设计,许诺单个用户与多运算机、对等操作系统效劳交互的用户设计,上下文灵敏的散布式文件系统,数据中心的电源治理,文件/存储系统,自主计算(autonomic computing),软件健壮性的系统支持和数据库的系统支持。
(3)平安(Security): 隐私,普适计算,无线传感器(wireless sensors),移动式和嵌入式运算机,标准,认证,验证策略,QoS保证和拒绝效劳爱惜,下一代通信,操作系统虚拟化和认证,关键基础设施系统,例如SCADA操纵系统和医疗,消息系统,平安网关,可用性平安。
蛋白质的结构、分类及预测
结构域是在超二级结构的基础上形成的, 通常由50-300个氨基酸残基组成,其特点 是在三维空间可以明显区分和相对独立, 并且具有一定的生物功能。 模体或基序(motif)是结构域的亚单位, 通常由2~3二级结构单位组成。 较大的蛋白质分子一般含有两个以上的结 构域,其间以柔性的铰链(hinge)相连,
25
蛋白质结构的可视化软件
Weblab Viewlite 5.0 (DS ViewerPro 5.0 ) RASMOL 2.7.2.1 Swiss-PdbViewer 3.7 CHIME 2.6 INSIGHTII Cn3D (NCBI格式)
26
Worms (Schematic)
27
通过Entrez检索
通过PDB id进 行检索
35
VAST and VAST Search
URL:
/Structure/VAST/vast.shtml
用于确定相似的蛋白三维结构
– 已知结构:pre-calculated – 新解析结构:VAST搜索
24
PDB格式文件的主要内容
结构名称、编号、简单说明、递交日期 化合物名称、来源、测定方法、分辨率 结构递交者姓名、单位、联系地址 相关文献作者、题目、刊物、日期 结构测定和修正注释 一级结构、二级结构、二硫键、复合物信息 构晶胞参数、旋转矩阵 原子坐标 二硫键配对标记 文件结束标记
对PDB数据解释和分类的数据库
MMDB (Molecular Modeling DataBase )
URL: /Structure/MMDB/m mdb.shtml 数据:PDB数据库中的实验来源数据 数据格式:ASN.1 可视工具:Cn3D (See In 3D) VAST (Vector Alignment Search Tool) 矢量同源 比较搜索工具 34
人附睾蛋白4在卵巢癌早期诊断及预后监测中的应用进展
人附睾蛋白4在卵巢癌早期诊断及预后监测中的应用进展田园;胡卫平【摘要】卵巢癌是常见的妇科恶性肿瘤,早期无症状,一旦诊断多属晚期,病死率居妇科恶性肿瘤之首.因此,针对卵巢癌的高危因素做到早期诊断并采取一定的阻断措施,必将减少部分卵巢癌的发生与死亡.人附睾蛋白4是新近提出的肿瘤标志物,在卵巢肿瘤组织高表达,在癌旁组织不表达,特异性较CA125高,与卵巢癌的组织类型、分期、分级等存在相关性,在血液、尿液中均可检测到,对卵巢癌的早期诊断、复发和预后的监测有良好的辅助诊断效果.【期刊名称】《医学综述》【年(卷),期】2013(019)013【总页数】3页(P2349-2351)【关键词】人附睾蛋白4;卵巢癌;CA125【作者】田园;胡卫平【作者单位】安徽医科大学附属省立医院妇产科,合肥,230000;安徽医科大学附属省立医院妇产科,合肥,230000【正文语种】中文【中图分类】R737.31卵巢癌是常见的妇科恶性肿瘤,其发病率仅次于宫颈癌和子宫体癌,病死率居妇科恶性肿瘤之首。
近40 年来,其发病率增加了23 倍,并且有上升的趋势。
根据已经出现典型症状而得到诊断的病例70%通常已经到了晚期阶段,5 年生存率在50%以下[1]。
临床为了尽可能及早地进行诊断并采取手术、化疗等治疗措施,通常利用一些费时或价格较高的方法进行检测,并联合多种检测方法同时进行,然而这些检查特异性、敏感性均不高,不能给予明确诊断,常需要进一步行腹腔镜检查[2]。
研究者长期以来着重研究血清中可以用来筛查和诊断卵巢癌的标志物,但是目前尚未发现可靠的肿瘤指标[3]。
CA125 是目前唯一用于临床检测卵巢癌的肿瘤标志物,但其诊断的敏感性和特异性不理想,对其用于临床确诊有一定的限制[4]。
人附睾蛋白4(human epididymis protein 4,HE4)是新近提出的肿瘤标志物,可用来筛查卵巢癌。
1 HE4 的结构和功能HE4 基因,即WFDC2 基因,位于染色体20q12~13.1,由5 个外显子和4 个内含子组成,编码相对分子质量为13 ×103 的蛋白质,经过糖基化后形成相对分子质量为25 ×103 的成熟蛋白(WAP 四二硫化物核心域蛋白)[5-6]。
蛋白质工程复习要点
1.定点突变技术:它以单链的克隆基因为模板在一段含有一个或几个错配碱基的寡核苷酸引物存在下合成双链闭环DNA分子。
用该双链闭环DNA分子转入宿主细胞,可解链成两条单链,各自可进行复制,合成自己的互补链,从而可得到野生型和突变型两种环状DNA,分离出突变型基因, 并引入到表达载体中就可经转化利用宿主细胞获得突变型的目的蛋白质。
2.杂合蛋白技术:原理:将不同来源的功能结构域经过组合,产生具有新的生物学功能的杂合多肽举例:鼠源scFv+大肠杆菌β-半乳糖苷酶N-末端3.易错PCR(error prone PCR, EP PCR):利用低保真度TaqDNA 聚合酶,或者改变PCR 反应体系的条件,在新链DNA 聚合过程中随机引入错配碱基,经多轮PCR 扩增,构建序列多种多样的突变库。
特点:不改变基因长度,突变频率控制在适度范围,能有效地获得有益突变体举例:厌氧菌N. patriciarum 中,木聚糖酶4.DNA 改组技术(DNA shuffling):原理:先切割产生随机大小的DNA 片段,再用无引物PCR 将其连接成为接近目的基因长度的DNA分子,最后进行扩增得全长基因举例:α-干扰素5.交错延伸( Stagger extension process):原理:a.在PCR 反应中把常规的退火和延伸合并为一步,并大大缩短其反应时间(55 →5s),从而只能合成出非常短的新生链,b.经变性的新生链再作为引物与体系内同时存在的不同模板退火而继续延伸。
c.此过程反复进行,产生间隔的含不同模板序列的新生DNA 分子。
酯酶KCTC1767稳定性和底物耐受性。
6.酶工程:是酶学基本原理与化学工程相结合而形成的一门新兴的技术科学。
研究酶制剂大规模生产及应用所涉及的理论与技术方法。
7.蛋白质工程:通过对蛋白质已知结构和功能的了解,借助计算机辅助设计,利用基因定位诱变等技术,特异性地对蛋白质结构基因进行改造,产生具有新的特性的蛋白质的技术,并由此深入研究蛋白质的结构与功能的关系,并使蛋白质更好地造福于人类。
结构方程模型中的残差变量
结构方程模型中的残差变量结构方程模型(Structural Equation Modeling, SEM)是一种常用的统计分析方法,它可以帮助研究者探索变量之间的关系和解释某个因果模型。
在结构方程模型中,残差变量扮演着重要的角色,它们代表了无法被其他变量解释的个体差异和测量误差。
残差变量是指因变量与自变量之间的关系无法完全解释的部分,可以理解为因变量中剩余的未被自变量解释的部分。
在实际研究中,残差变量可以用来检验模型的拟合度和探索未被观察到的因素对结果的影响。
残差变量可以用来评估模型的拟合度。
在结构方程模型中,我们通常会用拟合指数(Fit Index)来评估模型与观察数据的拟合程度。
常见的拟合指数包括均方根误差逼近指数(Root Mean Square Error of Approximation, RMSEA)、标准化拟合指数(Comparative Fit Index, CFI)等。
如果模型的拟合度较好,那么残差变量应该接近于零,表示模型可以较好地解释观察数据。
残差变量还可以帮助我们探索未被观察到的因素对结果的影响。
在结构方程模型中,我们可以通过引入潜变量(Latent Variable)来间接地测量无法直接观察到的因素。
潜变量通常由多个观察变量测量得到,而观察变量与潜变量之间的关系可以通过路径系数(Path Coefficient)表示。
当观察变量与潜变量之间的路径系数不显著时,说明这个观察变量对潜变量的解释程度较低,也就是说,观察变量的残差较大。
通过分析残差变量,我们可以发现哪些观察变量与潜变量之间的关系较弱,从而深入理解模型中的机制和因果关系。
残差变量还可以用来分析测量误差。
在结构方程模型中,观察变量通常会受到测量误差的影响,这些误差可以被视为观察变量的残差。
通过分析观察变量的残差,我们可以评估测量工具的有效性和信度。
如果观察变量的残差较大,说明测量工具的信度较低,可能需要重新设计或选择其他测量工具。
第11讲 蛋白质高级结构预测
蛋白质结构分类数据库
SCOP (Structural Classification of Proteins) CATH (Class, Architecture, Topology,
Homology)
Number of folds is limited. Currently ~700,Total: 1,000 ~10,000
CATH的结构层次
ቤተ መጻሕፍቲ ባይዱ
有限的蛋白质折叠类型
258 种类型 165 种类型 141 种类型
334 种类型 50 种类型
90% of new structures submitted to PDB in the past three years have similar structural folds in PDB
If we can solve the above problem, then • Given a sequence, we can try each known fold,
the structure most compatible with the sequence
Concept of Threading
Thread (align or place) a query protein sequence
onto a template structure in “optimal” way Good alignment gives approximate backbone
Description
3D-JIGSAW
Fragment assembly
Automated webserver
RaptorX
remote homology detection, protein 3D modeling, binding site prediction
医学遗传学专业英文词汇
acrocentric chromosome近端着丝粒染色体acute intermittent porphyria急性间隙性卟啉症additive gene累加基因adenylate deaminase,ADA腺苷脱氨酶affected pedigree member,APM患病家系成员法affected sib-pair,ASP患病同胞对法agammaglobulinemia丙种球蛋白血症albinism白化病alkaptonuria尿黑酸尿症Allele-specific oligonucleotide,ASO等位基因特异性寡核苷酸Alu family Alu家族An International System for Human Cytogenetics Nomenclature,ISCN人类细胞遗传学命名的国际体制anaphase lag染色体分裂后期延滞anencephalus无脑畸胎aneupliod非整倍体anticipation遗传早现antisense technology反义技术association关联assortative mating选型婚配atrial septal defect,ASD房间隔缺损autoimmune disease,AID自身免疫性疾病autosomal disease常染色体病autosomal dominant inheritance,AD常染色体显性遗传autosomal dominantly inherited chronic progressive external ophthalmoplegia,AD-CPEO慢性进行性外眼肌麻痹autosomal inheritance常染色体遗传average inbreeding coefficient平均近婚系数autosomal recessive inheritance,AR常染色体隐性遗传autosome常染色体Bbalanced translocation carrier染色体平衡易位携带者base substitution碱基替换biological fitness生物适合度biometric model fitting生物统计模型拟合birth defect出生缺陷brachydactyly短指(趾)症breakage断裂bronchial asthma支气管哮喘carrier携带者centi-Morgan,cM厘摩centric fusion着丝粒融合centromere着丝粒chromatid染色单体chromatin染色质chromosomal disorder染色体病chromosomal polymorphism染色体多态性chromosomal rearrangement染色体重排chromosome染色体chromosome aberration染色体畸变chromosome banding染色体显带chromosome lose染色体丢失chromosome set染色体组chronic progressive external ophthalmoplegia,CPEO慢性进行性眼外肌瘫痪clinical genetics临床遗传学co-segregation共分离codominance共显性codon密码子coefficient of relationship亲缘系数comparative genomics比较基因组学complete penetrance完全外显complex disease复杂疾病congenital adrenal hyperplasia先天性肾上腺皮质增生症congenital glucose-galactose malabsorption先天性葡萄糖、半乳糖吸收不良症congenital malformation先天畸形consanguinous mating近亲婚配cri du chat syndrome猫叫综合征cysticfibrosis,CF囊性纤维样变cystinuria胱氨酸尿症Ddelayed dominance延迟显性deletion缺失derivation chromosome衍生染色体diabetes mellitus,DM糖尿病diandry双雄受精dicentric chromosome双着丝粒染色体digyny双雌受精diploid二倍体Down Syndrome,DS Down综合征Down syndrome cell adhesion molecule,DSCAM DS细胞黏附分子Down syndrome critical region,DCR DS关键区Duchenne muscular dystrophy,DMD Duchenne型肌营养不良症duplication重复dynamic mutation动态突变EEdward syndrome Edward综合征Ehlers-Danlos Ehlers-Danlos综合征endomitosis核内有丝分裂endoreduplication核内复制euchromatin常染色质eugenics优生学euphanics优形学euploid整倍体eupsychics优心学euthenics优境学expanded familial genetic counseling扩大的家庭遗传咨询expressivity表现度Ffetal alcohol syndrome胎儿酒精综合征frame-shift mutation移码突变functional cloning功能克隆functional genomics功能基因组学familiar hypercholesterolemia家族性高胆固醇血症Ggain-of-function mutation功能加强突变galactosemia半乳糖血症gene基因gene augmentation基因增强gene correction基因修正gene expression基因表达gene mutation基因突变gene replacement基因替代gene therapy基因治疗genetic code遗传密码genetic counseling遗传咨询genetic disease遗传病genetic heterogeneity遗传异质性genetic imprinting遗传印记genetic map遗传图genetic medicine遗传医学genetic shift随机遗传漂变genome基因组genomic imprinting基因组印记glucose-6-phosphate dehydrogenase deficiency,G6PD葡糖-6-磷酸脱氢酶缺乏症glycogen storage disease,GSD糖原贮积症GT-AG rule GT-AG法则Hhaploid单倍体haplotype单倍型healthy birth健康生殖hemizygote半合子hemoglobinopathy血红蛋白疾病hemolytic disease of the newborn新生儿溶血症hemophilia A血友病Ahereditary chorea遗传性舞蹈病hereditary enzymopathy遗传性酶病heritability遗传度heterochromatin异染色质heteromorphism异形性heteroplasmy异质性histo-blood group组织血型homoplasmy同质性housekeeping protein持家蛋白human genetics人类遗传学human genome diversity project,HGDP人类基因组多样性计划human genome project,HGP人类基因组计划human leucocyte antigen,HLA人类白细胞抗原human prion diseases人类朊蛋白病Huntington’s chorea Huntington舞蹈病hydramnios羊水过多hyperdiploid超二倍体hypodiploid亚二倍体Iimmunodeficiency免疫缺陷inborn errors of metabolism先天性代谢缺陷inbreeding coefficient近婚系数incomplete penetrance不完全外显induced aberration诱发畸变induced mutaion诱发突变industrial genomics工业基因组学inherited disorders of col1age胶原蛋白病insertion插入interstitial deletion中间缺失intrauterine diagnosis宫内诊断inversion倒位irregular dominance不规则显性isochromosome等臂染色体Kkaryotype核型karyotype analysis核型分析Kearns-Sayre syndrome,KSS Kearns-Sayre综合征Klinefelter syndrome Klinefelter综合征KpnⅠfamily KpnⅠ家族Llandmark界标Leber hereditary optic neuropathy,LHON Leber遗传性视神经病Leigh sysdrom,LS Leigh综合征Lesch-Nyhan syndrome Lesch-Nyhan综合征liability易患性length-based heteroplasmy长度异质性linkage map连锁图loss-of-function mutation功能丢失的突变luxury protein奢侈蛋白Mmajor gene主基因major histocompatibility complex,MHC主要组织相容性复合体maternal inheritance母系遗传medical genetics医学遗传学metacentric chromosome中着丝粒染色体minor gene微效基因missense mutation错义突变mitochondrial disease线粒体病mitochondrial DNA,mtDNA线粒体DNAmitochondria1 encephalomyopathies,ME线粒体脑肌病mitochondrial encephalomyopathy with lactic acidosis,and stroke-like episodes,MELAS线粒体脑肌病合并乳酸血症及卒中样发作molecular diagnosis分子诊断molecular disease分子病monogenic disorder基因遗传病monosomy单体型morbid genomics疾病基因组学mucopolysaccharidosis,MPS粘多糖贮积症multifactorial disorder多因子病multifactorial inheritance,MF多因子遗传mutagen诱变剂mutant protein突变蛋白mutation突变mutation load突变负荷myeloschisis脊髓裂myoclonic epilepsy and ragged red fibers,MERRF伴有破碎红纤维的肌阵挛癫痫Nneonatal screening新生儿筛查neurogenic muscle weakness,ataxia,and retinitis pigmentosa,NARP神经源性肌软弱、共济失调并发色素性视网膜炎non-disjunction不分离non-sense mutation无义突变novel property mutation新特征突变nuclear DNA,nDNA核DNAnullosomy缺体型OOnline Mendelian Inheritance in Man在线《人类孟德尔遗传》osteogenesis imperfecta成骨不全Pparacentric inversion臂内倒位parental imprinting亲代印记Parkinson disease,PD帕金森病path analysis通径分析Patau syndrome Patau综合征pedigree analysis系谱分析法penetrance外显率pericentric inversion臂间倒位peudogene拟基因pharmacogenomics药物基因组学phenocopy拟表型phenylketonuria,PKU苯丙酮尿症physical map物理图plasma protein disease血浆蛋白病pleiotropy基因的多效性point mutation点突变polygenic disorder多基因遗传病polygenic inheritance多基因遗传polyploid多倍体polysomy多体型positional cloning位置克隆post-translational isozyme翻译后同工酶prenatal diagnosis产前诊断proband先证者proteomics蛋白质组学pseudodiploid假二倍体Qqualitative character质量性状quantitative character数量性状quantitative trait loci,QTL数量性状位点Rreceptor disease受体病reciprocal translocation相互易位recurrence risk再发风险率rejoin重接restriction fragment length polymorphism,RFLP限制性片段长度多态性reunion愈合或重合rheumatoid authritis,RA类风湿性关节炎ring chromosome环状染色体Robertsonian translocation罗伯逊易位Ssame sense mutation同义突变schizophrenia,SZ精神分裂症segregation load分离负荷selection coefficient选择系数sequence-based heteroplasmy序列异质性sequence map序列图severe combined immunodeficiency,SCID严重联合免疫缺陷病sex chromatin性染色质sex chromosome性染色体sex chromosome disease性染色体病sex-conditioned inheritance从性遗传sex-determining region Y,SRY Y性别决定区域sex-limited inheritance限性遗传short tandem repeat,STR短串联重复sick1e cel1 anemia镰状细胞贫血single gene disorder单基因遗传病single nucleotide polymorphism,SNP单核苷酸多态性single-strand conformation polymorphism,SSCP单链构象多态性small deletion syndrome微小缺失综合征somatic cell genetic disorder体细胞遗传病somatic mutation体细胞突变spina difida脊柱裂spina bifida occulta隐性脊柱裂spontaneous aberration自发畸变spontaneous mutation自发突变static mutation静态突变structural equation modeling结构等式模型structural genomics结构基因组学submetacentric chromosome亚中着丝粒染色体susceptibility易感性Ttandemly repeatd genes串联重复基因telocentric chromosome端着丝粒染色体telomere端粒teratogen致畸因子terminal deletion末端缺失terminator codon mutation终止密码突变testis-determining factor,TDF睾丸决定因子tetralogy of Fallot法乐氏四联症tetraploid四倍体tha1assemia地中海贫血tissue-specific protein组织特异性蛋白translocation易位transcription map转录图transition转换transmission disequilibrium test,TDT传递不平衡检验法transvertion颠换3trinucleotide repeat amplification脱氧三核苷酸重复扩增trinucleotide repeat expansion diseases,TREDs三核苷酸重复扩增疾病triplet code三联体密码trisomy三体型Turner syndromeTurner综合征Vvariable number of tandem repeats,VNTR可变数目串联重复ventricular septal defect,VSD室间隔缺损vitamin D-resistant rickets抗维生素D佝偻病XX chromatin X染色质X inactivation X染色体失活X-linked dominant inheritance,XD X伴性显性遗传X-linked inheritanceX伴性遗传X-linded recessive inheritance,XR X连锁隐性遗传xeroderma pigmentosum,XP着色性干皮病YY chromatin Y染色质Y-linked inheritance Y连锁遗传。
生物信息学课程复习题(南医大)
⽣物信息学课程复习题(南医⼤)⽣物信息学课程习题第⼀章绪论⼀、填空1、在年,美国国会批准启动⼈类基因组计划,拟⽤年时间测定⼈类全部条染⾊体上共个碱基序列的测定。
2、是遗传信息的携带者。
3、蛋⽩质三维结构测定主要⽅法有和。
4、理想的抗⽣素靶标应为微⽣物细胞所必须,在病原体中⾼度,且在⼈体中或与⼈类基因有。
5、下图例举了⼀个计算机辅助药物设计的实例,从a图中我们得到了配体上R基团附近的受体上有和残基,具有性,因此可以将R基团设计为性基团,如图b中所⽰的基团,使得抑制活性⽐改造前提⾼了近5000倍。
⼆、名词HGP(human genome project),EST(expressed sequence tag), SNP(single nucleotide polymorphism),⽣物信息学(Bioinformatics),药物基因组学(Pharmacogenomics),intron,“Junk DNA”,⽐较基因组学,蛋⽩质组学,分⼦进化树(evolutionary tree),基因组,基因组药物三、简答1、简述⽣物信息学在药物研究开发领域的应⽤可体现在哪些⽅⾯?2、如何利⽤基因组信息寻找新的药物作⽤靶标?3、如何利⽤⼈类基因组信息实现个性化治疗,其基于的原理是什么?4、试叙述基因芯⽚⽤于疾病诊断的原理,并说明其优缺点。
5、最近甲型流感流⾏,请设计甲型流感的分⼦诊断⽅法,说明其原理。
第⼆、三章数据库⼀、单选题1、以下数据库不能⽤于检索核酸序列的是( B )A. GenBankB. PDBC. EMBLD.DDBJ2、蛋⽩质结构数据常保存为下⾯哪⼀种格式为后缀的⽂件()A. PDBB. txtC. SeqD. mdb3、下列格式属于FASTA格式的是()A. >seq1B.C. ATGCCATAD. > ATGCCATAATGCCATA ATGCCATA⼆、填空题1、阅读以下数据格式,写出以下标注的含义:LOCUS是,DEFINITION是,ACCESSION是,VERSION是,SOURCE是在论⽂中使⽤了NCBI数据库中的该序列,应标注该序列的编号,应填。
蛋白质序列分析
蛋白质二级结构预测1
预测蛋白质二级结构的算法大多以已知三维 分为三类: 结构和二级结构的蛋白质为依据 ,分为三类: 统计/经验算法 Chou-Fasman法 GOR法 经验算法: 统计/经验算法:Chou-Fasman法、GOR法 物理化学法: 物理化学法:Lim法 法 机器学习法:结合上2种方法的优点 种方法的优点。 机器学习法:结合上 种方法的优点。
X-ray Crystallography
X-ray Crystallography..
From small molecules to viruses Information about the positions of individual atoms Limited information about dynamics Requires crystals
1.同源建模法 2.折叠子识别 3.从头预测法
蛋 白 质 三 级 结 构 分 析 流 程
/people/rob/CCP11BBS/
nnPredict
用神经网络方法预测二级结构,蛋白质 神经网络方法预测二级结构, 方法预测二级结构 结构类型分为全α蛋白、 结构类型分为全α蛋白、全β蛋白和 α/β蛋白 输出结果包括“ (螺旋) 蛋白, α/β蛋白,输出结果包括“H”(螺旋)、 “E”(折叠)和“-”(转角)。这个方法对 (折叠) (转角) 蛋白能达到79%的准确率。 79%的准确率 全α蛋白能达到79%的准确率。 nnPredict网址 网址: nnPredict网址: /~nomi/nn predict.html
PROSEARCH网址: 网址: 网址
http://www.embl-heidelberg.de/prs.html 程序也可以完成。 用Bioedit程序也可以完成。 程序也可以完成
生物信息学第七章蛋白质结构分析和预测
提交氨基酸序列
/~phyre/
五、蛋白质跨膜区预测
膜蛋白结构
脂双层
1
2
3
6 NH3
P
P
胞质
COOH
4
5
7
五、蛋白质跨膜区预测
跨膜区特点
➢ 膜蛋白跨膜区氨基酸具有极强疏水性 ➢ 跨膜区的二级结构一般为α螺旋和β筒状结构
20-30个连续高度疏水氨基酸可以α螺旋形式穿越 脂双层;β筒跨膜区的氨基酸只有20个左右。
构象分布概率、氨基酸在蛋白质中的相对出现 概率以及残基出现在结构中的频率,最后得到 构想参数,根据此参数得出氨基酸形成二级结 构的倾向性,从而预测二级结构。
Chou-Fasman二级结构预测经验规则
α螺旋规则
➢ 相邻的6个残基中如果有至少4个残基倾向于形 成α螺旋,则认为是螺旋核。
➢ 然后从螺旋核向两端延伸,直至四肽α螺旋倾 向性因子的平均值pα<1.0为止。此外,不容许 脯氨酸在螺旋内部出现,但可出现在C末端以 及N端的前三位。
蛋白质的结构层次:
一级结构(氨基酸序列) 二级结构 三级结构 四级结构
采用ProtParam软件[1] (/tools/protpa ram.html)分析蛋白质的分子量、理论 等电点、氨基酸组成、带正负电荷的氨 基酸残基数目、消光系数、吸光系数、 疏水系数和半衰期等基本理化性质。
信号肽预测
分泌蛋白新生肽链N端的一段20~30氨 基酸残基组成的肽段。将分泌蛋白引导 进入内质网,同时这个肽段被切除。现 这一概念已扩大到决定新生肽链在细胞 中的定位或决定某些氨基酸残基修饰的 一些肽段。
信号肽预测
预测给定的氨基酸序列中是否存在潜在 的信号肽剪切位点及其所在
植物β-胡萝卜素羟化酶的生物信息学分析
植物β-胡萝卜素羟化酶的生物信息学分析赵大球;曹春燕;孔芬;周春华;陶俊【摘要】采用生物信息学方法对GenBank中的拟南芥、玉米、龙胆、福寿草和水仙等植物β-胡萝卜素羟化酶(BCH)的核苷酸和氨基酸序列进行了比对分析,进而对其组成成分、理化性质、信号肽、亚细胞定位、疏水性/亲水性、跨膜结构域、功能结构域、基序及蛋白质二级结构等重要参数进行了预测和分析.结果表明,BCH 基因全长约为1 256 bp,具有完整的开放阅读框,长约为943 bp,编码313个氨基酸,分子量为34.82 kD,理论等电点为9.18,含量最丰富的氨基酸都包含Ala(10.34%)、Leu(8.7%)和Gly(8.1%);无信号肽,定位于叶绿体中的亲水性不稳定蛋白,含有3-4个跨膜结构域,一个功能结构域,二级结构均以α-螺旋和无规则卷曲为主要构件.【期刊名称】《生物技术通报》【年(卷),期】2010(000)004【总页数】6页(P116-121)【关键词】植物;β-胡萝卜素羟化酶;生物信息学【作者】赵大球;曹春燕;孔芬;周春华;陶俊【作者单位】扬州大学园艺与植物保护学院,扬州,225009;扬州大学园艺与植物保护学院,扬州,225009;扬州大学园艺与植物保护学院,扬州,225009;扬州大学园艺与植物保护学院,扬州,225009;扬州大学园艺与植物保护学院,扬州,225009【正文语种】中文植物类胡萝卜素是镶嵌于叶绿体和有色体膜中的脂溶性色素,有许多结构和功能[1,2],包括胡萝卜素(碳氢化合物)和叶黄素(胡萝卜素的氧化衍生物)两大类。
它们在结构上均是由 8个类异戊二烯单位浓缩后不断演变而成[3]。
在类胡萝卜素的生物合成中,存在着众多酶的催化作用[4],其中β-胡萝卜素羟化酶(BCH)是催化玉米黄素合成的关键酶[5]。
目前,人们已经从甜橙[6]、南丰蜜橘[7]、雨生红球藻[8]、拟南芥[9,10]和甜椒[11]等植物中分离得到该基因。
SWISS-MODEL 蛋白质结构预测
SWISS-MODEL 蛋白质结构预测SWISS-MODEL是一项预测蛋白质三级结构的服务,它利用同源建模的方法实现对一段未知序列的三级结构的预测。
该服务创建于1993年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。
同源建模法预测蛋白质三级结构一般由四步完成:1.从待测蛋白质序列出发,搜索蛋白质结构数据库(如PDB,SWISS-PROT等),得到许多相似序列(同源序列),选定其中一个(或几个)作为待测蛋白质序列的模板;2.待测蛋白质序列与选定的模板进行再次比对,插入各种可能的空位使两者的保守位置尽量对齐;3.建模:调整待测蛋白序列中主链各个原子的位置,产生与模板相同或相似的空间结构——待测蛋白质空间结构模型;4.利用能量最小化原理,使待测蛋白质侧链基团处于能量最小的位置。
最后提供给用户的是经过如上四步(或重复其中某几步)后得到的蛋白质三级结构。
SWISS-MODEL工作模式SWISS-MODEL服务器是以用户输入信息的最小化为目的设计的,即在最简单的情况下,用户仅提供一条目标蛋白的氨基酸序列。
由于比较建模程序可以具有不同的复杂性,用户输入一些额外信息对建模程序的运行有时是有必要的,比如,选择不同的模板或者调整目标模板序列比对。
该服务主要有以下三种方式:First Approach mode(简捷模式):这种模式提供一个简捷的用户介面:用户只需要输入一条氨基酸序列,服务器就会自动选择合适的模板。
或者,用户也可以自己指定模板(最多5条),这些模板可以来自ExPDB模板数据库(也可以是用户选择的含坐标参数的模板文件)。
如果一条模板与提交的目标序列相似度大于25%,建模程序就会自动开始运行。
但是,模板的可靠性会随着模板与目标序列之间的相似度的降低而降低,如果相似度不到50%往往就需要用手工来调整序列比对。
这种模式只能进行大于25个残基的单链蛋白三维结构预测。
∙Alignment Interface(比对界面):这种模式要求用户提供两条已经比对好的序列,并指定哪一条是目标序列,哪一条是模板序列(模板序列应该对应于ExPDB模板数据库中一条已经知道其空间结构的蛋白序列)。
生物分子结构预测及抑制剂设计优化方法
生物分子结构预测及抑制剂设计优化方法生物分子结构预测和抑制剂设计是现代药物研发领域的重要工作之一。
通过了解生物分子的结构,我们可以深入理解其功能和相互作用方式,并在此基础上设计出针对特定疾病的抑制剂,为药物研发提供有力支持。
生物分子结构预测是用计算机模拟的方法推测生物分子的三维结构。
通过深入研究生物分子的二级结构(如蛋白质的α-螺旋、β-折叠等),我们可以预测出其整体的三维结构。
这对于了解蛋白质的功能以及与其他分子的相互作用非常重要。
目前,常用的生物分子结构预测方法主要有基于比较模建 (Comparative modeling) 和基于物理力学模拟的分子动力学模拟(Molecular Dynamics Simulation)。
基于比较模建的方法通常通过寻找已知结构的蛋白质来预测目标蛋白质的结构。
通过比对两者之间的相同氨基酸序列,可以预测出目标蛋白质的结构。
然而,这种方法在目标蛋白质与已知结构的相似度较低时效果不理想。
另一种常用的方法是基于分子动力学模拟,它通过迭代地求解分子的势能函数,模拟分子在一定时间内的运动轨迹,从而得到生物分子的结构。
这种方法可以更精确地预测生物分子的结构,但计算复杂度较高,需要较强的计算资源和时间。
抑制剂设计是根据生物分子的结构和功能寻找与之相互作用的分子,从而干扰其正常的生理或代谢过程。
抑制剂的设计优化是通过结构分析和计算机模拟的手段,对已知的抑制剂进行改进,以提高其结合亲和力和选择性。
在抑制剂设计中,常用的方法包括构效关系研究、分子对接、虚拟筛选和药效团分析。
构效关系研究是通过探索分子结构和活性之间的相关性,找出影响分子活性的关键结构部分。
分子对接则是通过计算机模拟,将抑制剂与靶分子进行结合,寻找最佳的结合模式和亲和力。
虚拟筛选是利用计算机分析海量的已知化合物库,筛选出与目标分子相互作用的潜在抑制剂。
药效团分析则是通过识别已知抑制剂的共同特征和药效团,设计出新的抑制剂候选。
结构方程模型评价
结构方程模型评价全文共四篇示例,供读者参考第一篇示例:结构方程模型(Structural Equation Modeling,简称SEM)是一种在社会科学领域广泛应用的统计方法,其通过同时分析多个潜在变量之间的关系,包括直接和间接的影响,从而揭示变量之间的结构关系。
SEM不仅能够定量化描述变量之间的关系,还可以帮助研究者探索复杂的研究问题,评估模型的拟合度和预测效果,为决策者提供科学依据。
SEM的核心概念是路径图(Path diagram),它用箭头表示变量之间的关系,包括直接效应和间接效应。
变量可以是观测变量(经常测量的实际变量)或者潜在变量(不直接观测到的抽象概念),路径图能够清晰地展现变量之间的联系,帮助研究者建立模型并进行验证。
对于SEM的评价工作,主要包括模型拟合度检验、参数估计、模型修正和模型比较等方面。
模型拟合度指标通常包括卡方检验(Chi-square test)、标准化均方根残差(Root Mean Square Error of Approximation,RMSEA)、比较拟合指数(Comparative Fit Index,CFI)、较小拟合指数(Tucker-Lewis Index,TLI)等,通过这些指标可以评估模型与实际数据之间的拟合程度。
参数估计则是对模型中的参数进行估计和检验,了解各个变量之间的因果关系。
SEM可以估计路径系数、残差方差、协方差和相关系数等参数,以揭示变量之间的关系。
参数估计也可以通过置信区间的方法来检验参数的显著性,从而评估变量之间的重要性。
模型修正是在初步构建模型后,根据拟合度指标和参数估计结果对模型进行修正和改进,以提高模型的解释力和预测效果。
可能的修正方法包括增删变量、修改路径关系、引入中介变量等,通过反复修正和验证可以建立更加稳健和符合实际的模型。
第二篇示例:结构方程模型(Structural Equation Modeling,SEM)是一种统计分析方法,它能够同时考虑多变量之间的关系以及变量之间的潜在结构。
结构方程模型cfi、tli计算公式
结构方程模型cfi、tli计算公式结构方程模型(Structural Equation Modeling, SEM)是一种统计分析方法,用于验证理论模型和探索变量之间的关系。
在SEM中,常常使用一些拟合指标(fit indices)来评估模型的拟合程度,其中包括比较度指数(Comparative Fit Index, CFI)和逐步拟合指数(Tucker–Lewis index, TLI)。
本文将介绍CFI和TLI的计算公式。
在介绍CFI和TLI的计算公式之前,先简单介绍一下SEM的基本结构。
SEM包含两个方面的模型,即测量模型(measurement model)和结构模型(structural model)。
测量模型用于验证各个观察变量与其对应的潜在变量之间的关系,而结构模型则用于验证潜在变量之间的因果关系。
CFI和TLI是用来评估测量模型和结构模型的拟合度的指标。
它们的计算公式基本相似,只是在细节上有所区别。
下面分别介绍CFI和TLI的计算公式。
CFI的计算公式如下:CFI = (TL - 1) / (N - 1)其中,TL表示模型似然函数的对数值,N表示样本量。
CFI的取值范围为0到1,越接近1表示模型的拟合程度越好。
TLI的计算公式如下:TLI = (TL - S) / (TL - 1)其中,S表示自由度为1的χ²统计值。
TLI的取值范围也是0到1,越接近1表示模型的拟合程度越好。
需要注意的是,CFI和TLI并不是完全相同的指标,它们对模型的拟合度进行了不同的评估。
CFI是基于比较度原则,通过将当前模型的拟合度与一个基准模型进行比较来评估模型的拟合度。
而TLI则是基于逐步拟合原则,通过计算拟合模型和完全独立模型之间的差异来评估模型的拟合度。
除了CFI和TLI,还有一些其他的拟合指标可以用来评估SEM模型的拟合度,例如均方根误差逼近指数(Root Mean Square Error of Approximation, RMSEA)和规范拟合指数(Standardized Root Mean Square Residual, SRMR)。
结构方程模型amos中c.r值解读
结构方程模型amos中c.r值解读结构方程模型(Structural Equation Modeling, SEM) 是一种重要的统计分析方法,在社会科学研究中得到了广泛应用。
而AMOS是一款常用于进行SEM分析的软件工具。
在AMOS中,C.R.值是结构方程模型的一个重要统计指标,用于评估模型中路径系数的显著性。
C.R.值代表Critical Ratio的缩写,它是路径系数与其标准误的比值。
通常情况下,当C.R.值大于1.96(或者绝对值大于1.96)时,表示路径系数在统计上是显著的,即路径系数对被解释变量的影响是非随机的。
这意味着路径系数所代表的关系是具有一定稳定性和一致性的。
C.R.值的计算方法如下:取路径系数的估计值除以对应的标准误。
标准误是测量路径系数估计值的不确定性,也可以看作是路径系数的标准差。
C.R.值的公式如下所示:C.R. = 估计值 / 标准误需要注意的是,C.R.值仅能判断路径系数的显著性,而不能表明路径系数的大小或方向。
为了更全面地解读结构方程模型的结果,还需要考虑其他统计指标和领域知识的支持。
除了C.R.值外,通常还会参考一些其他指标来评估模型的拟合度和准确性,例如均方根残差(Root Mean Square Residual, RMSEA)、标准根残差(Standardized Root Mean Square Residual, SRMR)和比较拟合指数(Comparative Fit Index, CFI)等。
这些指标可以帮助研究者判断模型在样本数据上的拟合情况,并评估模型的质量。
在AMOS中,C.R.值是用来评估结构方程模型中路径系数的显著性的一个重要统计指标。
通过C.R.值的大小,研究者可以判断路径系数在统计上是否显著,从而评估模型中的关系是否具有一定的稳定性和一致性。
然而,为了更全面地解读结构方程模型的结果,还需要综合考虑其他统计指标和领域知识的支持。
蛋白质的序列分析及结构预测
精品课件
Masses of Amino Acid Residues
精品课件
Protein backbone
H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH
N-terminus
Ri-1
Ri
Ri+1
C-terminus
AA residuei-1 AA residuei AA residuei+1
蛋白质的序列分析及结构预测
精品课件
DNA sequence Protein sequence
Protein structure
精品课件
Protein function
一、蛋白质数据库介绍 二、蛋白质序列分析 三、蛋白质结构预测 四、应用 分子设计
精品课件
一、蛋白质数据库介绍
蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构 以及四级结构。依据这种结构层次, 将蛋白质数据库分为: 1. 蛋白质序列数据库:如PIR、SWISS-PROT、NCBI , 这些 数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释; 2. 蛋白质模体及结构域数据库:如PROSITE、Pfam, 这些数 据库主要收集了蛋白质的保守结构域和功能域的特征序列; 3. 蛋白质结构数据库: 如PDB 等, 这些数据库主要以蛋白质 的结构测量数据为主; 4. 蛋白质分类数据库:如SCOP、CATH、FSSP 等, 这其中有 以序列比较为基础的序列分类数据库以及以结构比较为基础的 结构分类数据库之分。
精品课件
N- and C-terminal Peptides
精品课件
Terminal peptides and ion types
Peptide Mass (D) 57 + 97 + 147 + 114 = 415
结构生物信息学6-三级结构预测
Template-free
从头计算
Ab Initio,Denovo
在Ramachandran plot 指导 下旋转, ,搜索自由能最低
生物信息学培训班
蛋白质结构预测的主要方法
Template-based
同源建模
Homology Modeling
序列足够相似,属同源蛋 白,则整体结构会很相似
预测算法
生物信息学培训班
蛋白质结构预测的主要方法
Template-based
同源建模
Homology Modeling
序列足够相似,属同源蛋 白,则整体结构会很相似
预测算法
折叠识别
Fold Recognition Threading
识别与目标序列有关的结构片段 组合片段,搜索自由能最低
如果两个蛋白质的序列比较相似, 则其结构也有很大可能比较相似。 如果序列相似性>75%,则可以得 到较高精度的预测结构。 缺点是只能处理和模板库中蛋白质 序列相似性较高的情况。
折叠识别
Fold Recognition Threading
识别与目标序列有关的结构片段 组合片段,搜索自由能最低
Template-free
从头计算
Ab Initio,Denovo
在Ramachandran plot 指导 下旋转, ,搜索自由能最低
从蛋白质结构数据库中挑选蛋白质 结构建立折叠子数据库,以折叠子 数据库中的折叠结构作为模板; 将未知序列与模板进行匹配,通过 计算打分函数值判断匹配程度,其 中打分最高的被认为是最可能采取 的折叠结构。
生物信息学培训班
蛋白质同源模建算法
同源建模(Homology modeling):
蛋白质折叠的研究与应用进展
蛋白质折叠的研究与应用进展彭晶晶;周烨【摘要】论述了蛋白质折叠的研究概况及其应用.折叠机制从最初的两态模型,到后来认为是一个包含有许多步骤的序变过程,在这个过程中还涉及热力学与热力学的影响.在对蛋白质折叠机制研究的基础上,预测了其应用的意义和前景.【期刊名称】《西安文理学院学报(自然科学版)》【年(卷),期】2011(014)001【总页数】4页(P5-7,20)【关键词】蛋白质折叠;热力学;动力学【作者】彭晶晶;周烨【作者单位】西安工程大学,环境与化学工程学院,陕西,西安,710048;西安工程大学,环境与化学工程学院,陕西,西安,710048【正文语种】中文【中图分类】Q518.2蛋白质是生命机体的基本组成部分,它是连接分子运作和生物功能的一个主要组成部分.蛋白质是由氨基酸组成的链状生物大分子,氨基酸与氨基酸之间通过缩水作用而形成肽键,进而形成多肽链.众所周知,蛋白质在生物体内占有特殊的地位.在生物体内,生命信息的流动可以分为两个部分:第一部分是储存于DNA序列中的遗传信息通过转录和翻译传入蛋白质的一级序列中,这是一维信息之间的传递,三联子密码介导了这一传递过程;第二部分是肽链经过疏水塌缩、空间盘曲、侧链叠集等折叠过程形成非常特定的复杂的空间结构,同时获得生物活性,从而将生命信息表达出来;而蛋白质作为生命信息的表达载体,它折叠所形成的特定空间结构是其具有生物学功能的基础,也就是说,这个一维信息向三维信息的转化过程是表现生命活力所必需的. 根据安芬森(Anfinsen)原理,每一种蛋白质分子都有自己特定的氨基酸组成和排列顺序,蛋白质一级结构的氨基酸序列包含和确定了其三维折叠结构的全部信息,即一级结构决定了蛋白质的高级结构.蛋白质的折叠就是指一个蛋白质从它的变性状态转变到它的特定的生物学天然构象的过程.在这一过程中,除了共价二硫键之外,主要是氢键、范德华力和盐键等一些非共价键的断裂和形成.蛋白质折叠包含以下两个方面的内容:(1)变性的蛋白质或多肽链的折叠;(2)通过三联密码翻译成的氨基酸序列链(新生肽链)的折叠[1].由蛋白质的一级结构生成三级结构的折叠过程也是非常复杂的,包括二级结构的初步形成、疏水塌缩、侧链的簇集、折叠中间体的形成、脯氨酸的顺反异构等等过程[2].机体内,蛋白质必须折叠成合适的结构才能正确地发挥其功能,然而蛋白质折叠成精确而紧密的结构是一个复杂而容易出错的过程.一般发生错误折叠的蛋白质会被运送到细胞的再循环“垃圾箱”中.但如果发生错误折叠的蛋白质过多,则会使再循环机制无法应付,导致废弃蛋白质不断积累、聚集,最终会引起或有助于引起阿尔茨海默氏症在内的若干种神经退化疾病.因而有关蛋白质折叠的研究对于致病机理和药物开发有很大意义.蛋白质分子的折叠过程是指蛋白质分子从一般的状态变化到基态的复杂过程.它能使我们了解氨基酸序列是如何决定蛋白质分子结构,预测其结构及结构所表现出来的蛋白质分子的性能[3-6].在这个过程中氨基酸与氨基酸紧密接触(Residue-residue contact)的相互作用起着十分重要的作用[7-9].人们用不同的方法对它进行了研究,如Dill等首先对紧密高分子链的构象进行了初步研究[4-5],后来又用Monte Carlo方法研究了蛋白质在不同的氨基酸序列下的折叠过程[6],有人还用图论的方法研究了生物大分子在折叠过程中的热力学性质的变化[10].实际上在蛋白质的折叠过程中,其分子大小也要发生明显变化.同时不同序列的蛋白质分子,其分子大小及其分布情况也是不同的.这些问题非常有意义,它能够帮助我们更好地了解蛋白质的折叠问题.目前,蛋白质折叠作为一个十分复杂的研究课题,其内容既涉及其动力学又涉及热力学问题.安芬森认为,蛋白质的折叠结构在一定条件下是热力学最稳定的,即通常的自由能极小的状态.根据热力学方法的特点,热力学只能解决某一变化的趋势问题,即变化的可能性问题,而不能解决变化的现实性问题.从热力学的角度看,变性蛋白的肽链或转译后的新生肽链,都是处于能量不稳定的状态,都有降低内能的倾向.肽链中的单键处于不同的运动状态.使肽链骨架中的酰胺和残基侧链基团能彼此接触并进一步相互作用,使得某些构象的能量低于松散的肽链,这些构象就相对地稳定下来,这就是肽链的折叠过程.蛋白质的折叠的研究是生命科学领域的前沿课题之一,蛋白质折叠在热力学方面要求自由能是最小的,热力学原理主要用于蛋白质结构的预测,而动力学则主要解决蛋白质折叠的路径,涉及到熔球态的中间体阶段.肽链折叠的动力学研究指出,卷曲可以在1~100 ms中完成,而有的实验还表明,螺旋的形成只有几微秒.因此,螺旋和转角这些在折叠时只涉及局部肽段的二级结构最有可能成为折叠过程中的构象核.在一些蛋白质变性和复性的研究中,还发现肽链的折叠过程常常是分两步进行的.以牛胰核糖核酸酶为例,它的变性第一步是快反应,25℃时仅需592 ms,在这个过程中,大部分肽链很快松散,第二步是慢反应,25℃时需20 s.复性也有类似的情况[11].这也提示,肽链松散或折叠的过程中都存在着几个不同的阶段,它们的折叠机制不尽相同.长期以来关于蛋白质折叠,形成了自组装的主导学说.1988年,邹承鲁明确指出,新生肽段的折叠在合成早期已经开始,而不是合成完后才开始进行,随着肽段的延伸同时折叠,又不断进行构象的调整,先形成的结构会作用于后合成的肽段的折叠,而后合成的结构又会影响前面已形成的结构的调整.因此,在肽段延伸过程中形成的结构往往不一定是最终功能蛋白中的结构.这样,三维结构的形成是一个同时进行着的协调的动态过程.直到20世纪90年代,一类具有新的生物功能的蛋白——分子伴侣的发现,以及在更广泛意义上帮助蛋白质折叠的辅助蛋白的提出,说明细胞内新生肽段的折叠在一般意义上是需要帮助的,而不是自发进行的.蛋白质分子的三维结构,除了共价的肽键和二硫键,还靠大量极其复杂的弱次级键共同作用.因此新生肽段在一边合成一边折叠过程中有可能暂时形成在最终成熟蛋白中不存在不该有的结构,他们常常是一些疏水表面,它们之间很可能发生本不应该有的错误的相互作用而形成非功能的分子,甚至造成分子的聚集和沉淀.实际上折叠过程是一个正确途径和错误途径相互竞争的过程,应该有帮助正确途径的竞争机制.在蛋白质的折叠过程中,有多种复杂的因素对它产生影响,包括溶剂的作用,温度的作用,酸碱度的作用,分子伴侣的作用等等.正是因为蛋白质折叠问题如此复杂,所以,至今还没有人提出大家都信服的蛋白质折叠机制.过去描述蛋白质折叠的两态模型一度占据统治地位,即人们普遍认为蛋白质的折叠过程是由肽链到蛋白质的瞬间转变,没有中间体存在,但随着测量仪器和手段的不断改进,在对蛋白质折叠过程的研究中,人们发现了越来越多的部分折叠态,并最终承认蛋白质的折叠过程是一个包含了许多步骤的序变过程,是一个快相过程与慢相过程相结合的过程.经过人们长期的努力,已经找到了蛋白质折叠的部分规律,例如通过二级结构预测和计算机模拟方法,研究者们找到一些由几个氨基酸残基组成的一级序列决定二级结构的规律;不同的作用力在蛋白质折叠过程所起的作用已被阐明;许多具体的蛋白质的折叠过程也已经被研究者们分析得十分清楚.目前,已经有一些小组采用全原子分子动力学模拟来研究小蛋白和多肽的从头折叠过程[12-14],比如,Duan等人[12]采用溶质的全原子分子动力学模拟和溶剂的广义波恩模型研究了一个包含35个残基的小蛋白的折叠过程[13].但是,采用全原子的分子动力学来模拟蛋白质折叠过程需要耗费巨大的计算资源.就目前的计算机处理能力来说,对于大的蛋白质,其模拟时间尺度相对于蛋白质整个折叠过程来说,还存在一定差距.而且,在全原子水平,蛋白质折叠的自由能曲面非常粗糙,存在大量的局部极小,从任意构象出发的分子动力学模拟很难收敛到天然构象[15].为了克服这些困难,蛋白质从头折叠研究常用的做法是采用简化模型,以减少体系的自由度,从而加快计算速度[16-17].对于简化模型,需要解决的关键问题是如何设计适用于该简化模型的势函数以及如何快速有效的找到自由能最低的状态[16].目前,已经有很多简化模型被用于蛋白质从头折叠的研究[17].蛋白质折叠机制的阐明将揭示生命体内的第二套遗传密码,这是它的理论意义.同时,它还存在重要的潜在应用前景,例如以下几个方面:第一,利用DNA重组技术可以将外源基因导入宿主细胞.但重组基因的表达产物往往形成无活性的、不溶解的包涵体.折叠机制的阐明对包涵体的复性会有重要帮助. 第二,许多疾病,如阿兹海默症(Alzheimers),可传播性海绵状脑病(CJD),肌萎缩性脊髓侧索硬化症(ALS)等,正是由于一些细胞内的重要蛋白发生突变,导致蛋白质聚沉或错误折叠而造成的.因此,深入了解蛋白质折叠与错误折叠的关系对于这些疾病的致病机制的阐明以及治疗方法的寻找将大有帮助.第三,基因组序列的发展使我们得到了大量的蛋白质序列,结构信息的获得对于揭示它们的生物学功能是十分重要的.我们对于蛋白质相互作用、配体与蛋白质的作用等结构与功能关系的研究也有赖于蛋白质折叠机制的阐明.【相关文献】[1]唐兵.蛋白质的折叠[J].氨基酸和生物资源,1997,19(3):51-54.[2]PA IN R H.Mechanis ms of Protein Folding[M].New York:Oxford University Press,1994.[3]KAMTEKAR S,SCH IFFER M,X IONG H,et al.Protein design by binary patterning of polarand nonpolar amino acid[J].Science,1993,262:1680-1685.[4]KIT F L,KEN A D.A lattice statisticalmechanicsmodel of the conformational and sequence spaces of proteins[J].Macromolecules,1989,22(10):3986-3997.[5]D III KA,BROMBERG S,YUE K,et al.Principles of protein folding-a perspective from simple exactmodels[J].Protein Sci,1995,4:561-602.[6]DOBSON CM.Principles of protein folding,misfolding andaggregation,Semin[J].CellDev.Biol,2004,15:3-16.[7]GROMIHA M M. Important inter-residue contacts for enhancing the ther mal stabilityof thermophilic proteins[J].Biophys Chem,2001,91:71-77.[8]HURTLEY SN,HELEMN IUSA.Protein oligomerization in the endoplas micreticulum[J].Annual Review of CellBiology,1989,5:277.[9]J IANG Z,ZHANGLi,CHEN J,et al.Effect ofAmino-Acid on Forming Residue-Residue Contacts in Proteins[J].Polymer,2002,43:6037-6047.[10]MUKHOPADHYA YA.Inclusion bodies and purification of proteins in biologically active for m[J].AdvBiochem EngBiotechnol,1997,56:61-109.[11]阎隆飞,孙之荣.蛋白质分子结构[M].北京:清华大学出版社,1999:22-24.[12]DUAN Y,KOLLMAN P A.Pathways to a protein folding intermediate observed in a 1-microsecond simulation in aqueous solution[J].Science,1998,282(5389):740-744.[13]LEIH,DUAN Y.Two-stage folding of HP-35 from Ab initio simulations[J].JMolBiol,2007,370(4):196-206.[14]DUAN Y,KOLLMAN P putational protein folding:From lattice to all-atom[J]. IBM SystJ,2001,40(2):297-309.[15]COLOMBO G,MICHELETTI C.Protein folding simulations:Combining coarse-grained models and all-atom molecular dynamics[J].Theor Chem Acc,2006,116(5):75-86.[16]OSGUTHORPE D J.Abinitio protein folding[J].CurrOpin StructBiol,2000,10(2):146-152.[17]HELLES G.A comparative study of the reported performance of Ab initio protein structure prediction algorithms[J].J R Soc Interface,2008,5(21):387-396.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
UNIT5.6 Comparative Protein Structure ModelingUsing ModellerFunctional characterization of a protein sequence is one of the most frequent problems inbiology.This task is usually facilitated by an accurate three-dimensional(3-D)structure ofthe studied protein.In the absence of an experimentally determined structure,comparativeor homology modeling often provides a useful3-D model for a protein that is relatedto at least one known protein structure(Marti-Renom et al.,2000;Fiser,2004;Misuraand Baker,2005;Petrey and Honig,2005;Misura et al.,2006).Comparative modelingpredicts the3-D structure of a given protein sequence(target)based primarily on itsalignment to one or more proteins of known structure(templates).Comparative modeling consists of four main steps(Marti-Renom et al.,2000;Figure5.6.1):(i)fold assignment,which identifies similarity between the target and at leastoneFigure5.6.1Steps in comparative protein structure modeling.See text for details.For the color version ofthisfigure go to .Contributed by Narayanan Eswar,Ben Webb,Marc A.Marti-Renom,M.S.Madhusudhan,David Eramian,Min-yi Shen,Ursula Pieper,and Andrej SaliCurrent Protocols in Bioinformatics(2006)5.6.1-5.6.30Copyright C 2006by John Wiley&Sons,Inc.Modeling Structure from Sequence5.6.1 Supplement15Comparative Protein Structure Modeling Using Modeller5.6.2Supplement 15Current Protocols in BioinformaticsTable 5.6.1Programs and Web Servers Useful in Comparative Protein Structure ModelingNameWorld Wide Web address DatabasesBALIBASE (Thompson et al.,1999)http://bips.u-strasbg.fr/en/Products/Databases/BAliBASE/CATH (Pearl et al.,2005)/bsm/cath/DBALI (Marti-Renom et al.,2001)/dbali GENBANK (Benson et al.,2005)/Genbank/GENECENSUS (Lin et al.,2002)/genome/MODBASE (Pieper et al.,2004)/modbase/PDB (UNIT 1.9;Deshpande et al.,2005)/pdb/PFAM (UNIT 2.5;Bateman et al.,2004)/Software/Pfam/SCOP (Andreeva et al.,2004)/scop/SWISSPROT (Boeckmann et al.,2003) UNIPROT (Bairoch et al.,2005) Template search123D (Alexandrov et al.,1996)/3D PSSM (Kelley et al.,2000)/∼3dpssm BLAST (UNIT 3.4;Altschul et al.,1997)/BLAST/DALI (UNIT 5.5;Dietmann et al.,2001)/dali/FASTA (UNIT 3.9;Pearson,2000)/fasta33/FFAS03(Jaroszewski et al.,2005)/PREDICTPROTEIN (Rost and Liu,2003)/predictprotein/PROSPECTOR (Skolnick and Kihara,2001)/new buffalo/services/threading.html PSIPRED (McGuffin et al.,2000)/psipred/RAPTOR (Xu et al.,2003)http://genome.math.uwaterloo.ca/∼raptor/SUPERFAMILY (Gough et al.,2001)/SUPERFAMILY/SAM-T02(Karplus et al.,2003)/research/compbio/HMM-apps/SP3(Zhou and Zhou,2005)/SPARKS2(Zhou and Zhou,2004)/THREADER (Jones et al.,1992)/threader/threader.html UCLA-DOE FOLD SERVER (Mallick et al.,2002) Target-template alignmentBCM SERVERF (Worley et al.,1998) BLOCK MAKERF (UNIT 2.2;Henikoff et al.,2000)/CLUSTALW (UNIT 2.3;Thompson et al.,1994)/clustalw/COMPASS (Sadreyev and Grishin,2003)ftp:///pub/compass/continuedModeling Structure from Sequence5.6.3Current Protocols in Bioinformatics Supplement 15Table 5.6.1Programs and Web Servers Useful in Comparative Protein Structure Modeling,continuedNameWorld Wide Web address Target-template alignment (continued)FUGUE (Shi et al.,2001)/fugue MULTALIN (Corpet,1988)http://prodes.toulouse.inra.fr/multalin/MUSCLE (UNIT 6.9;Edgar,2004)/muscle SALIGN (Eswar et al.,2003)/modeller SEA (Ye et al.,2003)/sea/TCOFFEE (UNIT 3.8;Notredame et al.,2000)/software/TCoffee.html USC SEQALN (Smith and Waterman,1981)/software/seqaln Modeling3D-JIGSAW (Bates et al.,2001)/servers/3djigsaw/COMPOSER (Sutcliffe et al.,1987a) CONGEN (Bruccoleri and Karplus,1990)/ICM (Abagyan and Totrov,1994) JACKAL (Petrey et al.,2003)/programs/jackal/DISCOVERY STUDIO MODELLER (Sali and Blundell,1993)/modeller/SYBYL SCWRL (Canutescu et al.,2003)/SCWRL3.php SNPWEB (Eswar et al.,2003)/snpweb SWISS-MODEL (Schwede et al.,2003)/swissmod WHAT IF (Vriend,1990)http://www.cmbi.kun.nl/whatif/Prediction of model errorsANOLEA (Melo and Feytmans,1998)http://protein.bio.puc.cl/cardex/servers/AQUA (Laskowski et al.,1996)/∼jurgen/aqua/BIOTECH (Laskowski et al.,1998)http://biotech.embl-heidelberg.de:8400ERRAT (Colovos and Yeates,1993)/Services/ERRAT/PROCHECK (Laskowski et al.,1993)/∼roman/procheck/procheck.html PROSAII (Sippl,1993)http://www.came.sbg.ac.at PROVE (Pontius et al.,1996)http://www.ucmb.ulb.ac.be/UCMB/PROVE SQUID (Oldfield,1992)/∼oldfield/squid/VERIFY3D (Luthy et al.,1992)/Services/Verify 3D/WHATCHECK (Hooft et al.,1996)http://www.cmbi.kun.nl/gv/whatcheck/Methods evaluationCAFASP (Fischer et al.,2001)http://cafasp.bioinfo.pl CASP (Moult et al.,2003) CASA (Kahsay et al.,2002)/casa EV A (Koh et al.,2003)/eva/LIVEBENCH (Bujnicki et al.,2001)http://bioinfo.pl/LiveBench/ComparativeProtein StructureModeling Using Modeller 5.6.4Supplement 15Current Protocols in Bioinformaticsknown template structure;(ii)alignment of the target sequence and the template(s);(iii)building a model based on the alignment with the chosen template(s);and (iv)predicting model errors.There are several computer programs and Web servers that automate the comparative modeling process (Table 5.6.1).The accuracy of the models calculated by many of these servers is evaluated by EV A-CM (Eyrich et al.,2001),LiveBench (Bujnicki et al.,2001),and the biannual CASP (Critical Assessment of Techniques for Proteins Structure Prediction;Moult,2005;Moult et al.,2005)and CAFASP (Critical Assessment of Fully Automated Structure Prediction)experiments (Rychlewski and Fischer,2005;Fischer,2006).While automation makes comparative modeling accessible to both experts and nonspe-cialists,manual intervention is generally still needed to maximize the accuracy of the models in the difficult cases.A number of resources useful in comparative modeling are listed in Table 5.6.1.This unit describes how to calculate comparative models using the program MODELLER (Basic Protocol).The Basic Protocol goes on to discuss all four steps of comparative modeling (Figure 5.6.1),frequently observed errors,and some applications.The Support Protocol describes how to download and install MODELLER.BASICPROTOCOLMODELING LACTATE DEHYDROGENASE FROM TRICHOMONAS VAGINALIS (TvLDH)BASED ON A SINGLE TEMPLATE USING MODELLER MODELLER is a computer program for comparative protein structure modeling (Sali and Blundell,1993;Fiser et al.,2000).In the simplest case,the input is an alignment of a sequence to be modeled with the template structures,the atomic coordinates of the templates,and a simple script file.MODELLER then automatically calculates a model containing all non-hydrogen atoms,within minutes on a Pentium processor and with no user intervention.Apart from model building,MODELLER can perform additional auxil-iary tasks,including fold assignment (Eswar,2005),alignment of two protein sequences or their profiles (Marti-Renom et al.,2004),multiple alignment of protein sequences and/or structures (Madhusudhan et al.,2006),calculation of phylogenetic trees,and de novo modeling of loops in protein structures (Fiser et al.,2000).NOTE:Further help for all the described commands and parameters may be obtained from the MODELLER Web site (see Internet Resources).Necessary Resources Hardware A computer running RedHat Linux (PC,Opteron,EM64T/Xeon64,or Itanium 2systems)or other version of Linux/Unix (x86/x8664/IA64Linux,Sun,SGI,Alpha,AIX),Apple Mac OSX (PowerPC),or Microsoft Windows 98/2000/XP Software The MODELLER 8v2program,downloaded and installed from /modeller/download installation.html (see Support Protocol)Files All files required to complete this protocol can be downloaded from /modeller/tutorial/basic-example.tar.gz (Unix/Linux)or /modeller/tutorial/basic-example.zip (Windows)Modeling Structure from Sequence 5.6.5Current Protocols in Bioinformatics Supplement15Figure 5.6.2File TvLDH.ali .Sequence file in PIR format.Background to TvLDHA novel gene for lactate dehydrogenase (LDH)was identified from the genomic sequenceof Trichomonas vaginalis (TvLDH).The corresponding protein had higher sequence sim-ilarity to the malate dehydrogenase of the same species (TvMDH)than to any other LDH.The authors hypothesized that TvLDH arose from TvMDH by convergent evolution rel-atively recently (Wu et al.,1999).Comparative models were constructed for TvLDH andTvMDH to study the sequences in a structural context and to suggest site-directed muta-genesis experiments to elucidate changes in enzymatic specificity in this apparent caseof convergent evolution.The native and mutated enzymes were subsequently expressedand their activities compared (Wu et al.,1999).Searching structures related to TvLDHConversion of sequence to PIR file formatIt is first necessary to convert the target TvLDH sequence into a format that is readableby MODELLER (file TvLDH.ali ;Fig.5.6.2).MODELLER uses the PIR format toread and write sequences and alignments.The first line of the PIR-formatted sequenceconsists of >P1;followed by the identifier of the sequence.In this example,the sequenceis identified by the code TvLDH .The second line,consisting of ten fields separated bycolons,usually contains details about the structure,if any.In the case of sequences withno structural information,only two of these fields are used:the first field should besequence (indicating that the file contains a sequence without a known structure)andthe second should contain the model file name (TvLDH in this case).The rest of the filecontains the sequence of TvLDH,with an asterisk (*)marking its end.The standarduppercase single-letter amino acid codes are used to represent the sequence.Searching for suitable template structuresA search for potentially related sequences of known structure can be performed us-ing the profile.build()command of MODELLER (file build profile.py ).The command uses the local dynamic programming algorithm to identify related se-quences (Smith and Waterman,1981;Eswar,2005).In the simplest case,the commandtakes as input the target sequence and a database of sequences of known structure (file pdb 95.pir )and returns a set of statistically significant alignments.The input scriptfile for the command is shown in Figure 5.6.3.The script,build profile.py ,does the following:1.Initializes the “environment”for this modeling run by creating a new environobject (called env here).Almost all MODELLER scripts require this step,as thenew object is needed to build most other useful objects.2.Creates a new sequence db object,calling it sdb ,which is used to contain largedatabases of protein sequences.Comparative Protein Structure Modeling Using Modeller5.6.6Supplement 15Current Protocols inBioinformaticsFigure 5.6.3File build profile.py .Input script file that searches for templates against a database of nonre-dundant PDB sequences.3.Reads a file,in text format,containing nonredundant PDB sequences,into the sdbdatabase.The sequences can be found in the file pdb 95.pir .This file is alsoin the PIR format.Each sequence in this file is representative of a group of PDBsequences that share 95%or more sequence identity to each other and have less than30residues or 30%sequence length difference.4.Writes a binary machine-independent file containing all sequences read in the pre-vious step.5.Reads the binary format file back in for faster execution.6.Creates a new “alignment”object (aln ),reads the target sequence TvLDH from thefile TvLDH.ali ,and converts it to a profile object (prf ).Profiles contain similarinformation to alignments,but are more compact and better for sequence databasesearching.7.prf.build()searches the sequence database (sdb )with the target profile (prf ).Matches from the sequence database are added to the profile.8.prf.write()writes a new profile containing the target sequence and its homologsinto the specified output file (file build profile.prf ;Fig.5.6.4).The equivalentinformation is also written out in standard alignment format.The profile.build()command has many options (see Internet Resources forMODELLER Web site).In this example,rr file is set to use the BLOSUM62sim-ilarity matrix (file blosum62.sim.mat provided in the MODELLER distribution).Accordingly,the parameters matrix offset and gap penalties 1d are set tothe appropriate values for the BLOSUM62matrix.For this example,only one searchiteration is run,by setting the parameter n prof iterations equal to 1.Thus,thereis no need to check the profile for deviation (check profile set to False).Finally,Modeling Structure from Sequence5.6.7Current Protocols in Bioinformatics Supplement15Figure 5.6.4An excerpt from the file build profile.prf .The aligned sequences have been removed for convenience.the parameter max aln evalue is set to 0.01,indicating that only sequences withE -values smaller than or equal to 0.01will be included in the output.Execute the script using the command mod8v2build profile.py .At the endof the execution,a log file is created (build profile.log ).MODELLER alwaysproduces a log file.Errors and warnings in log files can be found by searching for theE>and W>strings,respectively.Selecting a templateAn extract (omitting the aligned sequences)from the file build profile.prf isshown in Figure 5.6.4.The first six commented lines indicate the input parameters usedin MODELLER to create the alignments.Subsequent lines correspond to the detectedsimilarities by profile.build().The most important columns in the output are thesecond,tenth,eleventh,and twelfth columns.The second column reports the code ofthe PDB sequence that was aligned to the target sequence.The eleventh column reportsthe percentage sequence identities between TvLDH and the PDB sequence normalizedby the length of the alignment (indicated in the tenth column).In general,a sequenceidentity value above ∼25%indicates a potential template,unless the alignment is tooshort (i.e.,<100residues).A better measure of the significance of the alignment is givenin the twelfth column by the E -value of the alignment (lower the E -value the better).In this example,six PDB sequences show very significant similarities to the query se-quence,with E -values equal to 0.As expected,all the hits correspond to malate dehydro-genases (1bdm:A,5mdh:A,1b8p:A,1civ:A,7mdh:A,and 1smk:A).To select the appro-priate template for the target sequence,the pare structures()ComparativeProtein StructureModeling Using Modeller 5.6.8Supplement 15Current Protocols inBioinformaticsFigure 5.6.5Script file compare.py .command will first be used to assess the sequence and structure similarity between the six possible templates (file compare.py;Fig.5.6.5).In compare.py ,the alignment object aln is created and MODELLER is instructed to read into it the protein sequences and information about their PDB files.By default,all sequences from the provided file are read in,but in this case,the user should re-strict it to the selected six templates by specifying their align codes .The command malign()calculates their multiple sequence alignment,which is subsequently used as a starting point for creating a multiple structure alignment by malign3d().Based on this structural alignment,the compare structures()command calculates the RMS and DRMS deviations between atomic positions and distances,differences between the main-chain and side-chain dihedral angles,percentage sequence identities,and sev-eral other measures.Finally,the id table()command writes a file (family.mat )with pairwise sequence distances that can be used as input to the dendrogram()command (or the clustering programs in the PHYLIP package;Felsenstein,1989).dendrogram()calculates a clustering tree from the input matrix of pairwise dis-tances,which helps visualizing differences among the template candidates.Excerpts from the log file (compare.log )are shown in Figure 5.6.6.The objective of this step is to select the most appropriate single template structure from all the possible templates.The dendrogram in Figure 5.6.6shows that 1civ:A and 7mdh:A are almost identical,both in terms of sequence and structure.However,7mdh:A has a better crystallographic resolution than 1civ:A (2.4◦A versus 2.8◦A).From the second group of similar structures (5mdh:A,1bdm:A,and 1b8p:A),1bdm:A has the best resolution (1.8◦A).1smk:A is most structurally divergent among the possible templates.However,it is also the one with the lowest sequence identity (34%)to the target sequence (build profile.prf ).1bdm:A is finally picked over 7mdh:A as the final template because of its higher overall sequence identity to the target sequence (45%).Aligning TvLDH with the template One way to align the sequence of TvLDH with the structure of 1bdm:A is to use the align2d()command in MODELLER (Madhusudhan et al.,2006).Although align2d()is based on a dynamic programming algorithm (Needleman and Wunsch,1970),it is different from standard sequence-sequence alignment methods because it takes into account structural information from the template when constructing an alignment.This task is achieved through a variable gap penalty function that tends to place gaps in solvent-exposed and curved regions,outside secondary structure segments,and between two positions that are close in space.In the current example,the target-template similarity is so high that almost any alignment method with reasonable parameters will result in the same alignment.Modeling Structure from Sequence 5.6.9Current Protocols in Bioinformatics Supplement15Figure 5.6.6Excerpts from the log file compare.log.Figure 5.6.7The script file align2d.py ,used to align the target sequence against the templatestructure.The MODELLER script shown in Figure 5.6.7aligns the TvLDH sequence in fileTvLDH.ali with the 1bdm:A structure in the PDB file 1bdm.pdb (file align2d.py ).In the first line of the script,an empty alignment object aln ,and a new model object mdl ,into which the chain A of the 1bmd structure is read,are created.append model()transfers the PDB sequence of this model to aln and assigns it the name of 1bdmA(align codes ).The TvLDH sequence,from file TvLDH.ali ,is then added to alnusing append().The align2d()command aligns the two sequences and the align-ment is written out in two formats,PIR (TvLDH-1bdmA.ali )and PAP (TvLDH-1bdmA.pap ).The PIR format is used by MODELLER in the subsequent model-buildingstage,while the PAP alignment format is easier to inspect visually.In the PAP format,all identical positions are marked with a *(file TvLDH-1bdmA.pap ;Fig.5.6.8).Dueto the high target-template similarity,there are only a few gaps in the alignment.Comparative Protein Structure Modeling Using Modeller 5.6.10Supplement 15Current Protocols inBioinformatics Figure 5.6.8The alignment between sequences TvLDH and 1bdmA ,in the MODELLER PAP format.File TvLDH-1bmdA.pap.Figure 5.6.9Script file,model-single.py ,that generates five models.Model buildingOnce a target-template alignment is constructed,MODELLER calculates a 3-D modelof the target completely automatically,using its automodel class.The script in Figure5.6.9will generate five different models of TvLDH based on the 1bdm:A templatestructure and the alignment in file TvLDH-1bdmA.ali (file model-single.py ).The first line (Fig.5.6.9)loads the automodel class and prepares it for use.Anautomodel object is then created and called “a ,”and parameters are set to guide themodel-building procedure.alnfile names the file that contains the target-templatealignment in the PIR format.knowns defines the known template structure(s)inalnfile (TvLDH-1bdmA.ali )and sequence defines the code of the target se-quence.starting model and ending model define the number of models thatare calculated (their indices will run from 1to 5).The last line in the file calls themake method that actually calculates the models.The most important output files aremodel-single.log ,which reports warnings,errors and other useful informationincluding the input restraints used for modeling that remain violated in the final model,and TvLDH.B9999000[1-5].pdb ,which contain the coordinates of the five pro-duced models,in the PDB format.The models can be viewed by any program thatreads the PDB format,such as Chimera (/chimera/)or RasMol( ).Modeling Structure from Sequence 5.6.11Figure 5.6.10File evaluate model.py ,used to generate a pseudo-energy profile for the model.Evaluating a modelIf several models are calculated for the same target,the best model can be selected by picking the model with the lowest value of the MODELLER objective function,which is reported in the second line of the model PDB file.In this example,the first model (TvLDH.B99990001.pdb )has the lowest objective function.The value of the objective function in MODELLER is not an absolute measure,in the sense that it can only be used to rank models calculated from the same alignment.Once a final model is selected,there are many ways to assess it.In this example,the DOPE potential in MODELLER is used to evaluate the fold of the selected model.Links to other programs for model assessment can be found in Table 5.6.1.However,before any external evaluation of the model,one should check the log file from the modeling run for runtime errors (model-single.log )and restraint violations (see the MODELLER manual for details).The script,evaluate model.py (Fig.5.6.10)evaluates the model with the DOPE potential.In this script,sequence is first transferred (using append model()),and then the atomic coordinates of the PDB file are transferred (using transfer xyz()),to a model object,mdl .This is necessary for MODELLER to correctly calculate the energy,and additionally allows for the possibility of the PDB file having atoms in a nonstandard order,or having different subsets of atoms (e.g.,all atoms including hydrogens,while MODELLER uses only heavy atoms,or vice versa).The DOPE energy is then calculated using assess dope().An energy profile is additionally requested,smoothed over a 15-residue window,and normalized by the number of restraints acting on each residue.This profile is written to a file TvLDH.profile ,which can be used as input to a graphing program such as GNUPLOT.Similarly,evaluate model.py calculates a profile for the template structure.A comparison of the two profiles is shown in Figure 5.6.11.It can be seen that the DOPE score profile shows clear differences between the two profiles for the long active-site loop between residues 90and 100and the long helices at the C-terminal end of the target sequence.This long loop interacts with region 220to 250,which forms the other half of the active site.This latter region is well resolved in both the template and the target structure.However,probably due to the unfavorable nonbonded interactions with the 90to 100Comparative Protein Structure Modeling UsingModeller5.6.12Figure5.6.11A comparison of the pseudo-energy profiles of the model(red)and the template (green)structures.For the color version of thisfigure go to . region,it is reported to be of high energy by DOPE.It is to be noted that a region of high energy indicated by DOPE may not always necessarily indicate actual error,especially when it highlights an active site or a protein-protein interface.However,in this case,the same active-site loops have a better profile in the template structure,which strengthens the argument that the model is probably incorrect in the active-site region.Resolution of such problems is beyond the scope of this unit,but is described in a more advanced modeling tutorial available at /modeller/tutorial/advanced.html.SUPPORT PROTOCOL OBTAINING AND INSTALLING MODELLERMODELLER is written in Fortran90and uses Python for its control language.All input scripts to MODELLER are,hence,Python scripts.While knowledge of Python is not necessary to run MODELLER,it can be useful in performing more advanced tasks.Pre-compiled binaries for MODELLER can be downloaded from /modeller. Necessary ResourcesHardwareA computer running RedHat Linux(PC,Opteron,EM64T/Xeon64or Itanium2systems)or other version of Linux/Unix(x86/x8664/IA64Linux,Sun,SGI,Alpha,AIX),Apple Mac OS X(PowerPC),or Microsoft Windows98/2000/XP SoftwareAn up-to-date Internet browser,such as Internet Explorer(/ie);Netscape();Firefox (/firefox);or Safari(/safari) InstallationThe steps involved in installing MODELLER on a computer depend on its operating sys-tem.The following procedure describes the steps for installing MODELLER on a generic x86PC running any Unix/Linux operating system.The procedures for other operating systems differ slightly.Detailed instructions for installing MODELLER on machines running other operating systems can be found at /modeller/release.html.Modeling Structure from Sequence 5.6.131.Point browser to /modeller/download installation.html.2.On the page that appears,download the distribution by clicking on the link entitled “Other Linux/Unix”under “Available downloads ...”.3.A valid license key,distributed free of cost to academic users,is required to use MODELLER.To obtain a key,go to the URL /modeller/registration.html ,fill in the simple form at the bottom of the page,and read and accept the license agreement.The key will be E-mailed to the address provided.4.Open a terminal or console and change to the directory containing the downloaded distribution.The distributed file is a compressed archive file called modeller-8v2.tar.gz .5.Unpack the downloaded file with the following commands:gunzip modeller-8v2.tar.gztar -xvf modeller-8v2.tar6.The files needed for the installation can be found in a newly created directory called modeller-8v2.Move into that directory and start the installation with the following commands:cd modeller-8v2./Install7.The installation script will prompt the user with several questions and suggest default answers.To accept the default answers,press the Enter key.The various prompts are briefly discussed below:a.For the prompt below,choose the appropriate combination of the machine ar-chitecture and operating system.For this example,choose the default answer by pressing the Enter key.The currently supported architectures are as follows:1)Linux x86PC (e.g.,RedHat,SuSe).2)SUN Inc.Solaris workstation.3)Silicon Graphics Inc.IRIX workstation.4)DEC Inc.Alpha OSF/1workstation.5)IBM AIX OS.6)Apple Mac OS X 10.3.x (Panther).7)Itanium 2box (Linux).8)AMD64(Opteron)or EM64T (Xeon64)box (Linux).9)Alternative Linux x86PC binary (e.g.,forFreeBSD).Select the type of your computer from the list above[1]:b.For the prompt below,tell the installer where to install the MODELLER executa-bles.The default choice will place it in the directory indicated,but any directory to which the user has write permissions may be specified.Full directory name for the installed MODELLER8v2[<YOUR-HOME-DIRECTORY >/bin/modeller8v2]:c.For the prompt below,enter the MODELLER license key obtained in step 3.KEY MODELLER8v2,obtained from our academiclicense server at /modeller/registration.shtml:Comparative Protein Structure Modeling UsingModeller5.6.148.The installer will now confirm the answers to the above prompts.Press Enter tobegin the installation.The mod8v2script installed in the chosen directory can now be used to invoke MODELLER.Other resources9.The MODELLER Web site provides links to several additional resources that cansupplement the tutorial provided in this unit,as follows.a.News about the latest MODELLER releases can be found at http://salila/modeller/news.html.b.There is a discussion forum,operated through a mailing list,devoted to providingtips,tricks,and practical help in using ers can subscribe to the mailing list at /modeller/discussion ers can also browse through or search the archived messages of the mailing list.c.The documentation section of the web page contains links to Fre-quently Asked Questions(FAQ;/modeller/FAQ.html),tuto-rial examples(/modeller/tutorial),an online version of the manual(/modeller/manual),and user-editable Wiki pages (/modeller/wiki/)to exchange tips,scripts,and examples. COMMENTARYBackground InformationAs stated earlier,comparative modelingconsists of four main steps:fold assignment,target-template alignment,model building andmodel evaluation(Marti-Renom et al.,2000;Fig.5.6.1).Fold assignment and target-templatealignmentAlthough fold assignment and sequence-structure alignment are logically two distinctsteps in the process of comparative modeling,in practice,almost all fold-assignment meth-ods also provide sequence-structure align-ments.In the past,fold-assignment methodswere optimized for better sensitivity in de-tecting remotely related homologs,often atthe cost of alignment accuracy.However,re-cent methods simultaneously optimize boththe sensitivity and alignment accuracy.There-fore,in the following discussion,fold assign-ment and sequence-structure alignment will betreated as a single procedure,explaining thedifferences as needed.Fold assignmentThe primary requirement for comparativemodeling is the identification of one or moreknown template structures with detectablesimilarity to the target sequence.The identi-fication of suitable templates is achieved byscanning structure databases,such as PDB(Deshpande et al.,2005),SCOP(Andreevaet al.,2004),DALI,UNIT5.5(Dietmann et al.,2001),and CATH(Pearl et al.,2005),withthe target sequence as the query.The detectedsimilarity is usually quantified in terms of se-quence identity or statistical measures such asE-value or z-score,depending on the methodused.Three regimes of the sequence-structurerelationshipThe sequence-structure relationship can besubdivided into three different regimes in thesequence similarity spectrum:(i)the easily de-tected relationships,characterized by>30%sequence identity;(ii)the“twilight zone”(Rost,1999),corresponding to relationshipswith statistically significant sequence similar-ity,with identities in the10%to30%range;and(iii)the“midnight zone”(Rost,1999),corresponding to statistically insignificant se-quence similarity.Pairwise sequence alignment methodsFor closely related protein sequences withidentities higher than30%to40%,the align-ments produced by all methods are almostalways largely correct.The quickest way tosearch for suitable templates in this regimeis to use simple pairwise sequence alignmentmethods such as SSEARCH(Pearson,1994),BLAST(Altschul et al.,1997),and FASTA(Pearson,1994).Brenner et al.(1998)showedthat these methods detect only∼18%of thehomologous pairs at less than40%sequenceidentity,while they identify more than90%of the relationships when sequence identityis between30%and40%(Brenner et al.,1998).Another benchmark,based on200ref-erence structural alignments with0%to40%。