核酸蛋白序列比对分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核酸\蛋白序列比对分析
生物技术 02级 021402198 曾彪
摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。
关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型
正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。
大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有
Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。
面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。
核酸序列分析
核酸序列的基本分析
1.测定分子质量、碱基组成、碱基分布等基本数值;
2.序列变换:反向序列、互补序列、互补反向序列;
3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的
微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及参考文献。
4.克隆测序的分析:测序峰图的查看、核酸序列中载体的识别和
去除、其他人工序列的分析和去除
核酸序列的电子延伸---GenBank的UniGene数据库、意大利Tigem 的EST Machine、EMBL的EST Cluster Project等
基因的电子表达谱分析---将待分析序列与EST数据库进行序列对库的检索,用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,进而得到该基因的组织表达谱。SAGE数据库、UniGene、Tigem等。
核酸序列的电子基因定位分析---染色体定位。
–通过序列标签STS数据库定位
–利用UniGene/RH放射性杂交定位
–直接利用基因组序列定位
cDNA对应的基因组序列分析---EST和cDNA的基因组序列查询了解该基因的基因组结构:外显子/内含子结构、转录调控区。
基于核酸序列对齐分析的功能预测
–利用数据库的核酸序列的同源性分析
–两条核酸序列之间的同源性分析
–核酸序列之间的多重比对分析及进化分析
可读框架分析
1)cDNA序列的可读框架分析
2)基因组序列中的编码区/内含子结构分析
3)cDNA序列与基因组序列的对齐及显示,Sim4程序。
5)基因启动子及其他调控位点分析---启动子、增强子、转录因子结合位点、内含子与外显子。
6)重复序列分析
7)引物设计
蛋白质序列分析
1.蛋白质序列检索
2.蛋白质基本性质分析
1)氨基酸组分、分子质量、等电点
2)疏水性分析
3)跨膜区分析
4)前导肽和蛋白质定位
5)卷曲螺旋分析
蛋白质功能预测
6)基于序列同源性分析的蛋白质功能预测。 Blast、Blast2、FASTA。
7)基于模体、结构位点、结构功能域的蛋白质功能预测
蛋白质结构预测
8)蛋白质二级结构预测
9)蛋白质三级结构预测——与已知结构的序列比较、同源模建、threading算法和折叠识别
DNA 芯片技术与脱氧核糖核酸序列分析
在分子生物学的许多研究领域,都需要对DNA分子进行序列分析,阐明DNA 分子的一级结构是进一步认识其功能的基础。因此,分析测定DNA 序列的能力在很大程度上决定着人们获取遗传信息、认识生命奥秘的能力。人类基因组计划的根本目标是分析人类基因组DNA 的全部核苷酸顺序,这项计划的实施极大地促进了DNA序列分析技术的发展,各种新的高速测序技术不断出现。在这些新的DNA 序列分析技术中,DNA 芯片(DNA chip) :技术以其新颖的构思和诱人的应用前景而受到人们的广泛关注,它综合应用了生物学、化学以及工程技术科学等学科的众多相关技术,在微型芯片上合成了高密度的寡核苷酸探针阵列,将探针阵列与待分析DNA 序列同步杂
交,用高分辨率的检测装置进行扫描检测,再结台计算机系统分析处理,可以快速获取所需的遗传信息这是一种全新的DNA序列分析技术,与传统测序技术相比,它的突出优点是整个检测过程快速高效。由于探针阵列具有高度的序列多样性,它可以同时对大量基因、乃至整个基因组进行扫描分析,从而能够使人们从一个更高的层次来全面研究基因的功能,分析不同基因之间的生物相关性这些是传统的序列分析技术所无法企及的。随着这项技术的广泛应用,将会给分子生物学的发展带来深远的影响,特别是将在以研究基因定位和基因功能为主的后基因组计划中发挥越来越太的作用。