核酸蛋白序列比对分析
核酸蛋白序列比对分析
核酸\蛋白序列比对分析生物技术02级021402198 曾彪摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。
核酸与蛋白质序列分析是生物信息学的基本研究方法。
核酸与蛋白质序列分析是生物信息学的基本研究方法。
关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。
分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。
大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。
它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。
这些生物信息数据库可以分为一级数据库和二级数据库。
一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。
国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。
国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。
数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
常用的数据库查询系统有Entrez, SRS等。
数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
核酸与蛋白质序列分析
光学测序技术利用光信号的变化来检测DNA或RNA序列, 具有高分辨率和高灵敏度等优点,是未来测序技术的重要 发展方向。
人工智能在序列分析中的应用
序列比对
人工智能算法能够快速准确地比对新序列与已知序列之间的相似 性和差异性,有助于发现新的基因和变异。
结构预测
人工智能可以预测蛋白质的三维结构,有助于理解蛋白质的功能和 相互作用机制Maxam-Gilbert和Sanger的DNA测序方法,以及 primer extension method等。这些方法可以提供核酸序列 的精确信息,但通量较低。
下一代测序(NGS)
随着技术的发展,出现了高通量的下一代测序技术,如 Illumina、SOLiD、Ion Torrent和PacBio等。这些技术可以 同时测定大量核酸序列,大大提高了测序速度和通量。
诊断标志物筛选
基于蛋白质序列分析,筛选与疾病相关的生物标志物,用于疾病的早期诊断和预后评估。
04
序列分析的挑战与未来发展
高通量测序技术的局限性
成本高昂
01
尽管高通量测序技术已经显著降低了测序成本,但仍相对昂贵,
限制了其在某些领域的应用。
数据解读难度大
02
高通量测序产生的数据量庞大,需要专业的生物信息学分析方
顺序。
酶降解法
利用特定的酶将蛋白质分解为肽段, 再测定各肽段的氨基酸序列。
自动测序法
利用特定的仪器自动进行蛋白质的 测序,如质谱仪和液相色谱仪等。
蛋白质的变异与修饰
基因突变
由于基因突变导致蛋白质合成过程中出现氨基酸 替换或缺失,从而影响蛋白质的功能。
磷酸化
蛋白质上的特定氨基酸残基被磷酸化,影响蛋白 质的活性、定位和稳定性。
实验三蛋白序列比对到基因组
实验三蛋白序列比对到基因组(GeneWise and exonerate)实验目的1)了解基因结构,acceptor, sponsor 等概念2)理解将蛋白序列比对到基因组的应用3)掌握利用GeneWise 将蛋白序列定位到基因组上并得到基因结构实验数据及软件ftp://172.28.137.55/pub/lab_materia/biosoft/lab03/1、Genewise 简介Genewise 是EBI 的Ewan Birney <birney@> 和他的同事们开发的一套软件系统,用来做蛋白质序列和DNA 序列之间的比对,软件比对过程中会考虑剪切位点信息,所以能够定义出intron/exon 结构,同时它和blast 的最大区别是它能够把基因的多个exon 的链接起来,从而得到基因整体的比对情况。
Genewise 只能一次进行一条蛋白序列和一条核酸序列的比对,同等运算量的情况下,运行时间较blast,blat,sim4 等慢,由于进行的是蛋白质水平的比对,所以敏感性比blat,sim4 等要高。
2、下载可从EBI 网站上下载,下载地址:ftp:///pub/software/unix/wise2/wise2.2.0.tar.gz(FTP 服务器上已经下载有)3、安装1)解压缩2)编译,$ cd src$ make all3)设置环境变量:WISECONFIGDIR4、使用语法genewise <protein-file> <dna-file>genewise –genesf [other options] <protein-file> <dna-file>参数提示1.默认情况下,蛋白序列和dna 序列的正链进行比对,即-tfor 参数;如果用户不确定蛋白质序列是在dna 序列的正链上还是反链上,可以改用-both 参数;2.当用户需要使用genewise 比对得到的dna 序列时,可以通过添加-cdna 得到;可以通过-trans参数得到对应的氨基酸序列;应用1—确定基因结构genewise –both –genesf input-protien3.fa input-dna3.fa > output3.genewise.out 结果(部分)当序列比对中有移码出现时(非3 整数倍的插入、缺失),genewise 会在dan 翻译的氨基酸序列行显示一个“!”,如下:应用2 检验假基因当比对的结果里面出现“!”时说明dna 序列中出现了移码突变,当比对中出现X 时说明出现了premature stop codon。
生物信息学中的蛋白质序列比对算法研究
生物信息学中的蛋白质序列比对算法研究在生物学研究中,蛋白质序列比对是一种重要的技术手段,用于分析和理解蛋白质的结构和功能。
蛋白质序列比对算法旨在寻找两个或多个蛋白质序列之间的相似性关系和差异性。
基于这些比对结果,我们可以推断蛋白质的功能、亲缘关系以及进化历史等信息。
本文将介绍几种常用的蛋白质序列比对算法,并讨论它们在生物信息学中的应用。
一、序列比对的重要性蛋白质序列比对为我们理解蛋白质的结构和功能提供了基础。
蛋白质是生物体内最为重要的大分子,其功能与结构紧密相关。
通过比对蛋白质序列,我们可以推断其可能的功能和结构特征。
而蛋白质序列的比对不仅可以研究同一物种的不同蛋白质,还可以比较不同物种之间的蛋白质,从而推断它们之间的进化关系。
二、常用的蛋白质序列比对算法1. Smith-Waterman算法Smith-Waterman算法是一种动态规划算法,用于比对两个蛋白质序列或核酸序列。
该算法通过构建一个得分矩阵来计算序列的相似性。
在得分矩阵中,每个单元格代表两个相应序列位置之间的最佳得分。
最终根据最高得分确定比对的起始位置,从而得到最优的比对结果。
Smith-Waterman算法适用于比对相对较短的序列,但对于大规模比对问题计算复杂度较高。
2. Needleman-Wunsch算法Needleman-Wunsch算法也是一种动态规划算法,用于全局比对两个蛋白质序列或核酸序列。
与Smith-Waterman算法不同的是,Needleman-Wunsch算法通过引入罚分来惩罚不匹配的碱基或氨基酸,以确定最佳比对结果。
这个算法适用于比对相对较长的序列,但也面临计算复杂度较高的问题。
3. BLAST算法BLAST(Basic Local Alignment Search Tool)算法是一种快速比对算法,广泛应用于生物信息学领域。
BLAST算法采用启发式搜索策略,通过预先建立一个库,将待比对序列与库中的序列进行比对。
核酸数据比对情况汇报
核酸数据比对情况汇报
在核酸数据比对方面,我们进行了一系列的实验和研究,现将比对情况进行汇
报如下:
首先,我们使用了最新的比对算法对所收集到的核酸数据进行了比对分析。
通
过比对,我们发现样本中存在着一定比例的突变和插入缺失情况。
这些突变和插入缺失对于我们的疾病研究和临床诊断具有重要意义,因此我们对这些情况进行了详细的分析和记录。
其次,我们对比对结果进行了统计和整理,发现不同样本之间存在着一定的差
异性。
这些差异性可能与不同个体的遗传背景、环境因素等有关。
我们将继续深入研究,探索这些差异性背后的原因和意义,为个性化医疗和疾病预防提供更多的参考依据。
此外,我们还对比对结果进行了可视化展示,以便更直观地观察样本之间的差
异和共性。
通过可视化展示,我们可以清晰地看到核酸序列的相似性和差异性,为后续的数据分析和解读提供了重要的参考。
最后,我们将比对结果与已有数据库进行了比较和验证,结果表明我们的比对
结果具有较高的准确性和可靠性。
这为我们的研究工作提供了坚实的基础,也为相关领域的研究者提供了宝贵的数据资源。
总的来说,通过对核酸数据的比对分析,我们获得了大量有价值的信息和数据,这些信息和数据对于我们的研究工作具有重要意义。
我们将继续深入挖掘这些信息和数据,不断完善我们的研究成果,为人类健康事业做出更大的贡献。
希望以上汇报能够对大家的工作和研究有所帮助,也欢迎大家就比对结果提出
宝贵意见和建议,共同推动核酸数据比对领域的发展和进步。
序列比对
序列比对和数据库搜索引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。
达尔文正是研究比较了galapagos finches同其它一些物种的形态学特征,从而提出了自然选择学说。
今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。
在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。
在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在下一章介绍。
七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。
分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。
在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。
今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。
序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。
值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。
相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。
基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。
如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。
蛋白质和核酸序列比对的基础和应用
蛋白质和核酸序列比对的基础和应用序列比对是生物信息学中的基本问题之一。
生物学中,各种生物体的遗传材料都是由由核酸序列组成的基因组。
这些核酸序列对于生物的基因表达和功能非常重要,但是它们的信息密度比较低,很难从中获得有意义的信息内容。
因此,生物学家们研究出了一种对这些序列进行分析的办法,称之为序列比对。
这种方法通过比较不同样本的序列,从中发现这些序列之间的共性和差异,进而推断出生物之间的关系,以及各种基因的功能和特征。
序列比对的基础序列比对的基本思路是将两个或多个序列进行比较,从中寻找相同的部分。
根据两条序列中相同碱基的数量以及它们的位置关系,我们可以推断出这些序列之间的相似程度。
然而,由于生物的基因组非常复杂,以及数据量过大,使得这种序列比对方式很难通过简单的手工方法进行。
因此,生物学家们研究出了一系列的比对算法,用于通过计算机程序实现。
目前,序列比对算法主要分为两类,即全局比对和局部比对。
全局比对是将两条或多条序列的全部碱基进行比较,通常用于比较两个相似的序列,以确定它们之间的相同区域。
而局部比对则是通过寻找两条序列之间的局部匹配来发现它们之间的相似之处。
在处理大量的生物序列时,局部比对比全局比对更加高效。
应用序列比对在生物研究中有着广泛的应用。
首先,它可以揭示不同生物之间的遗传关系。
通过比较物种之间的基因组,我们可以推断出它们之间的相似性和差异性,从而建立起一种生物分类的方法。
其次,序列比对也可以用于研究个体之间的遗传关系。
通过比较不同个体的基因组,我们可以了解它们之间的遗传距离,从而推断出不同个体之间的亲缘关系,或者是寻找其它与生物体性状相关的基因。
此外,序列比对还可以用于研究蛋白质的结构和功能。
蛋白质是生命体中最基本的组成成分之一,其结构和功能非常复杂。
通过对蛋白质的序列进行比对,我们可以发现它们之间的共同特征,从而了解蛋白质的折叠结构和功能。
总结序列比对是生物信息学中的一个非常重要的分支。
生物信息学分析方法
核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词:核酸序列蛋白质序列分析软件在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。
通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。
通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。
通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。
尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。
此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。
上述技术路线可为其它类似分子的生物信息学分析提供借鉴。
本路线图及推荐网址已建立超级,放在大学人类疾病基因研究中心(./science/bioinfomatics.htm),可以直接点击进入检索。
下面介绍其中一些基本分析。
值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。
(一)核酸序列分析1、双序列比对(pairwise alignment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。
由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。
根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。
生物信息学中的序列比对与进化树构建
生物信息学中的序列比对与进化树构建生物信息学是一门涉及生命科学和计算科学的交叉学科,其应用在分子生物学、生物医学、生态学、进化论、生物技术等诸多领域中。
序列比对和进化树构建是生物信息学的重要组成部分,是理解生物学进化的重要途径之一。
一、序列比对序列比对是将两个或多个蛋白质或核酸序列究竟有多少相同、多少不同进行比较的过程。
序列比对在生物学中极其重要,因为它可以帮助科学家确定两个生物物种之间的相似性,进而推断它们之间的亲缘关系以及共同祖先的时间。
序列比对中最基础和常用的方法是全局比对和局部比对。
全局比对试图比较两个序列的完整长度,一般用于比较相似性较高的序列,它最先被应用于分析DNA和蛋白质,是序列比对过程中最古老、最经典的算法方法。
而局部比对则更注重比较两个序列中的相似区域,忽略其中任何间隔,通常用于比较两个较短的序列或者两个相对较不相关的序列。
例如,在核酸序列比对中,这种算法更适用于获取多个剪接变异或者重复序列之间的相似性。
另外,序列比对有一个关键问题,就是如何准确的衡量两条序列的相似性和相异性。
在这方面有很多方法,例如编辑距离、盒子型、PAM矩阵、BLOSUM 矩阵等等,其中都采用了不同的评分标准。
二、进化树构建进化树(Phylogenetic Tree)是用来表示生物物种间亲缘关系的结构,也称演化树或家谱树。
进化树是通过对基于DNA和RNA等生物分子序列进行分析,推导出各物种之间共同祖先的关系构建起来的,同时它也综合了形态、系统和分子信息等其他生物学数据。
进化树的构建过程中涉及许多算法,其中最基础的是贪心算法。
贪心法从序列的最初状态开始,一步步选择最佳的演化路径,最终得到最优的进化树;而Neighborhood-joining (NJ)算法则是以序列之间的 Jukes-Cantor 模型距离或 Kimura 二参数模型距离为基础,使用最小进化步骤(Minimum Evolution,ME)标准构建进化树,是目前应用比较广泛的算法。
BLAST分析
BLAST分析BLAST是一种常用的生物信息学工具,用于比对和比较生物序列。
它可以在数据库中查找相似的序列,并根据序列的相似性和匹配程度得出比对结果。
BLAST分析广泛应用于基因组学、蛋白质组学和普通生物学研究中。
BLAST(Basic Local Alignment Search Tool)基本本地序列比对工具,是目前最流行的序列比对算法之一、BLAST有几个不同的变体,包括BLASTp(对蛋白质序列进行比对)、BLASTn(对核酸序列进行比对)、BLASTx(对核酸序列进行翻译比对)和tBLASTn(对蛋白质序列进行翻译比对)。
BLAST由两个主要步骤构成:查询和数据库比对。
首先,用户输入一个查询序列,这个序列可以是DNA序列、蛋白质序列或其他生物序列。
然后,该查询序列与数据库中的序列进行比对。
数据库可以是全局数据库(如GenBank)或局部数据库(用户自定义的数据库或者特定物种的数据库)。
BLAST算法的核心是利用k-mer(k个连续核苷酸或氨基酸)来识别相似性区域,然后计算两个序列的匹配分数。
BLAST将查询序列分成更小的片段,称为word,然后在数据库中具有相同或相似word的序列。
通过计算匹配的word间的得分,并找到分数最高的匹配,BLAST可以确定最可能的候选序列。
最后,BLAST评估比对的置信度,并提供相关的统计数据。
BLAST分析是生物信息学和基因组学研究中常用的工具之一、它可以帮助研究人员找到与他们感兴趣的序列相似的其他序列,并用于寻找同源基因、确定蛋白质功能和预测基因家族等应用。
BLAST还可以用于比较两个物种之间的基因组,并帮助研究人员了解物种之间的进化关系和功能差异。
BLAST的应用领域非常广泛。
在基因组学研究中,BLAST可以用于基因预测、基因组注释和跨物种比较。
在蛋白质组学研究中,BLAST可以用于确定蛋白质序列的同源性、预测蛋白质的结构和功能。
此外,BLAST还可以用于病原菌鉴定、药物设计、分子进化研究和分子标记分析等方面。
生物信息学序列比对方法
NP_663512:577aa
获取FASTA序列
结论二:氨基酸序列
小鼠的Edem2基因编码蛋白名字为ER
degradation enhancer,mannosidase alpha-like 2 precursor这个蛋白质包含577 个氨基酸,序列号NP_663512。 FASTA格式序列如下:
核酸序列分析
核酸序列分析在生物学领域中,核酸序列分析是一项重要的研究工具,它可以帮助科学家们理解生物体内的基因组结构和功能。
通过分析核酸序列,我们可以揭示基因的组合方式、基因在不同物种之间的演化关系以及基因与疾病之间的关联。
本文将介绍核酸序列分析的基本步骤和常用方法,并探讨它在生物研究中的应用。
一、核酸序列分析的基本步骤1. 数据收集与清洗:首先,我们需要获取相关的核酸序列数据。
这些数据可以来自于公共数据库(如GenBank、ENSEMBL等)或实验室内部的测序项目。
收集到的数据可能存在噪声或错误,所以我们需要对数据进行清洗和筛选,以保证分析的准确性。
2. 序列比对:接下来,我们需要将不同样本的核酸序列进行比对。
序列比对是核酸序列分析的核心步骤之一,它可以帮助我们发现序列之间的相似性和差异性。
常用的序列比对算法包括Smith-Waterman算法和Needleman-Wunsch算法等。
3. 序列注释:在比对完成后,我们可以根据已知的功能注释信息来对序列进行注释。
注释可以告诉我们该序列可能的编码蛋白质的功能、寻找潜在的基因等。
4. 比对结果分析:通过分析比对结果,我们可以了解到序列的保守区域和变异区域。
保守区域可能是功能区域,例如编码蛋白质的区域,变异区域可能涉及到物种之间的进化差异或突变相关的功能。
5. 结果可视化:最后,我们需要将分析的结果进行可视化呈现。
通过可视化,我们可以更直观地理解数据,并对进一步实验设计或研究方向提出建议。
二、核酸序列分析的常用方法1. 比对工具:常用的核酸序列比对工具包括BLAST、ClustalW和MAFFT等。
BLAST(基本局部比对序列工具)是一种快速的局部比对算法,它能够快速地找到序列之间的相似性。
ClustalW和MAFFT则更适用于多序列比对,它们可以比较多个序列之间的相似性和差异性。
2. 注释工具:常用的核酸序列注释工具包括NCBI的Entrez、ENSEMBL和UniProt等。
核酸与蛋白质分析网站
一、DNA序列分析与引物设计1.碱基组成:采用DNRSTAR6.0软件。
2.外显子、内含子分析:Blast,即基因组与cDNA或mRNA比对,结合“GT-AG法则”。
或:GENSCAN:/GENSCAN.html3.启动子预测:/molbio/proscan//seq_tools/promoter.htmlhttp://www.cbs.dtu.dk/services/Promoter/4.CpG Island 分析:/Tools/emboss/cpgplot/5.http://www.cbs.dtu.dk/services/6.酶切位点分析:Primer Premier 57.引物设计:Primer Premier 5和Primer 3。
三、RNA分析RNA二级结构分析用DNASTAR6中的Genequst程序进行或RNAstructure 软件进行。
四、cDNA的序列分析1.ORF分析:采用NCBI的ORF工具,或者采用DNRSTAR6.0软件。
2.碱基组成:采用DNRSTAR6.0软件。
3.电子定位:采用NCBI中的Blast工具,与牛的基因组比对可得。
五、蛋白序列及结构分析:1.氨基酸序列的推导:采用DNRSTAR6.0软件。
2.氨基酸数目、组成:采用DNRSTAR6.0软件。
3.分子量、等电点:/tools/pi_tool.html4.疏/亲水性:/tools/protscale.html5.信号肽:http://www.cbs.dtu.dk/services/SignalP/6.跨膜结构:http://www.cbs.dtu.dk/services/TMHMM-2.0/7.蛋白质结构域预测:http://smart.embl-heidelberg.de/或者/prosite/8.亚细胞定位:http://psort.nibb.ac.jp/form2.html9.同源性分析:/blast10.系统发生树:采用DNAMAN软件。
实验二 核酸序列分析
实验二核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、掌握使用BioEdit软件进行核酸序列的基本分析;1、熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);2、了解基因的电子表达谱分析。
【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。
在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。
一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。
一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
1. 重复序列分析对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。
2. 数据库搜索把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。
在理论课中已经专门介绍了序列比对和搜索的原理和技术。
但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。
对于EST序列而言,序列搜索将是非常有效的预测手段。
生物信息学实验报告
生物信息学实验报告班级::学号:日期:实验一核酸和蛋白质序列数据的使用实验目的了解常用的序列数据库,掌握基本的序列数据信息的查询方法。
教学基本要求了解和熟悉NCBI 核酸和蛋白质序列数据库,可以使用BLAST进行序列搜索,解读BLAST 搜索结果,可以利用PHI-BLAST 等工具进行蛋白质序列的结构域搜索,解读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。
实验容提要在序列数据库中查找某条基因序列(BRCA1),通过相关一系列数据库的搜索、比对与结果解释,回答以下问题:1. 该基因的基本功能?2. 编码的蛋白质序列是怎样的?3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?4. 该蛋白质的功能是怎样的?5. 该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结构是什么样子的?给出示意图。
实验结果及结论1. 该基因的基本功能?This gene encodes a nuclear phosphoprotein that plays a role in maintaining genomic stability, and it also acts as a tumor suppressor. The encoded protein combines with other tumor suppressors, DNA damagesensors, and signal transducers to form a large multi-subunit protein complex known as the BRCA1-associated genome surveillance complex (BASC). This gene product associates with RNA polymerase II, and through the C-terminal domain, also interacts with histone deacetylase complexes. This protein thus plays a role in transcription, DNA repair of double-stranded breaks, and recombination. Mutations in this gene are responsible for approximately 40% of inherited breast cancers and more than 80% of inherited breast and ovarian cancers. Alternative splicing plays a role in modulating the subcellular localization and physiological function of this gene. Many alternatively spliced transcript variants, some of which are disease-associated mutations, have been described for this gene, but the full-length natures of only some of these variants has been described. A related pseudogene, which is also located on chromosome 17, has been identified. [provided by RefSeq, May 2009]2. 编码的蛋白质序列是怎样的?[Homo sapiens]1 mdlsalrvee vqnvinamqk ilecpiclel ikepvstkcd hifckfcmlk llnqkkgpsq61 cplcknditk rslqestrfs qlveellkii cafqldtgle yansynfakk ennspehlkd121 evsiiqsmgy rnrakrllqs epenpslqet slsvqlsnlg tvrtlrtkqr iqpqktsvyi181 elgsdssedt vnkatycsvg dqellqitpq gtrdeislds akkaacefse tdvtntehhq241 psnndlntte kraaerhpek yqgssvsnlh vepcgtntha sslqhenssl lltkdrmnve301 kaefcnkskq pglarsqhnr wagsketcnd rrtpstekkv dlnadplcer kewnkqklpc361 senprdtedv pwitlnssiq kvnewfsrsd ellgsddshd gesesnakva dvldvlnevd421 eysgssekid llasdpheal ickservhsk svesniedki fgktyrkkas lpnlshvten481 liigafvtep qiiqerpltn klkrkrrpts glhpedfikk adlavqktpe minqgtnqte541 qngqvmnitn sghenktkgd siqneknpnp ieslekesaf ktkaepisss isnmelelni601 hnskapkknr lrrksstrhi halelvvsrn lsppnctelq idscssseei kkkkynqmpv661 rhsrnlqlme gkepatgakk snkpneqtsk rhdsdtfpel kltnapgsft kcsntselke721 fvnpslpree keekletvkv snnaedpkdl mlsgervlqt ersvesssis lvpgtdygtq781 esisllevst lgkaktepnk cvsqcaafen pkglihgcsk dnrndtegfk yplghevnhs 841 retsiemees eldaqylqnt fkvskrqsfa pfsnpgnaee ecatfsahsg slkkqspkvt 901 feceqkeenq gknesnikpv qtvnitagfp vvgqkdkpvd nakcsikggs rfclssqfrg 961 netglitpnk hgllqnpyri pplfpiksfv ktkckknlle enfeehsmsp eremgnenip 1021 stvstisrnn irenvfkeas ssninevgss tnevgssine igssdeniqa elgrnrgpkl 1081 namlrlgvlq pevykqslpg snckhpeikk qeyeevvqtv ntdfspylis dnleqpmgss 1141 hasqvcsetp ddllddgeik edtsfaendi kessavfsks vqkgelsrsp spfththlaq 1201 gyrrgakkle sseenlssed eelpcfqhll fgkvnnipsq strhstvate clsknteenl 1261 lslknslndc snqvilakas qehhlseetk csaslfssqc seledltant ntqdpfligs 1321 skqmrhqses qgvglsdkel vsddeergtg leennqeeqs mdsnlgeaas gcesetsvse 1381 dcsglssqsd ilttqqrdtm qhnliklqqe maeleavleq hgsqpsnsyp siisdssale 1441 dlrnpeqsts ekavltsqks seypisqnpe glsadkfevs adsstsknke pgversspsk 1501 cpslddrwym hscsgslqnr nypsqeelik vvdveeqqle esgphdltet sylprqdleg 1561 tpylesgisl fsddpesdps edrapesarv gnipsstsal kvpqlkvaes aqspaaahtt 1621 dtagynamee svsrekpelt astervnkrm smvvsgltpe efmlvykfar khhitltnli 1681 teetthvvmk tdaefvcert lkyflgiagg kwvvsyfwvt qsikerkmln ehdfevrgdv 1741 vngrnhqgpk raresqdrki frgleiccyg pftnmptdql ewmvqlcgas vvkelssftl 1801 gtgvhpivvv qpdawtedng fhaigqmcea pvvtrewvld svalyqcqel dtylipqiph 1861 shy3. 该蛋白质有没有保守的功能结构域 (NCBI CD-search)?有保守的供能结构域。
实验3 : 核酸和蛋白质序列为基础的数据库检索
实验 3 :核酸和蛋白质序列为基础的数据库检索一、实验目的:1.掌握已知或未知序列接受号的核酸序列检索的基本步骤2.熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析)3.掌握BLAST的原理,了解如何利用Genbank数据库中提供的Blast功能完成同源性检索二、实验内容:作业(可以将演示一的结果记录并分析作为实验报告或作业4题中任意选两题作为报告上交)1、将上述演示二中核酸序列对应的蛋白质序列,分别进行BLASTP和PSI-BLAST搜索,说明你的参数设置,简明操作步骤,分析搜索结果,体会PSI-BLAST的优势。
2. 将第1题中的蛋白质序列利用TBLASTN程序进行搜索,说明你的参数设置,比较它与BLASTN结果有无差异。
3. 将第1题中的核酸序列利用BLASTX程序进行搜索,说明你的参数设置,比较它与BLASTP 搜索结果有无差异。
4. 将演示二中的核酸序列利用TBLASTX程序在默认数据库进行搜索,简要说明操作步骤,体会它与BLASTN搜索的差异。
三、作业:演示: 找一条你感兴趣的核酸序列(智人胰岛素(INS)),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√ ; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequence BC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY 序列匹配的相似度很高。
生物信息学中的序列比对
生物信息学中的序列比对序列比对是生物信息学领域中最基本的分析方法之一。
它是比较两个或多个基因组序列(DNA,RNA或蛋白质序列)的相似性和差异性的过程。
序列比对是理解生物学系统、基因组演化和基因表达调控的首要步骤。
序列比对的基本原理是将两个序列对齐并找出它们之间的匹配点,然后计算匹配点的相似性得分。
这个匹配点是由共同的核苷酸或氨基酸构成的,它们在序列中与匹配序列中的对应位置相同。
比对后的即为相似区域或保守区域,区域中的差异基本上包括插入、缺失和突变。
这些区域可以揭示两个序列之间的进化关系或功能差异。
序列比对的应用十分广泛。
它可以用于比较同一物种不同个体或不同品系之间的基因组序列;也可以用于比较物种间的基因组序列,了解它们之间的差异,推测它们之间的进化历史。
此外,序列比对也可以用于寻找重复序列、反转转录转座子或功能相关的序列元件。
序列比对在生物信息学研究中的作用不可低估。
随着技术的不断发展,目前有很多序列比对的软件和工具可供选择。
这些工具的选择取决于所需的比对类型、计算资源和准确性。
传统的序列比对方法主要基于动态规划(DP)算法,例如Smith-Waterman算法和Needleman-Wunsch算法。
这些算法可以找到最优的比对方案,但计算时间和计算资源的消耗较大。
因此,对于大规模基因组序列比对,这种方法变得不太可行。
随着第二代测序技术的发展,序列数据的数量迅速增加,有许多高通量的,快速且可扩展的序列比对工具被开发出来。
这些工具基于不同的比对策略,包括基于Hash函数、BWT(Burrows-Wheeler Transform)和FM索引的方法。
其中受到广泛应用的工具包括Bowtie2、BWA和STAR等。
除了传统的序列比对之外,还有一些新的比对方法——ribosome profiling(核糖体剖析法)。
核糖体剖析法是一种研究蛋白质翻译调控的技术,可以直接测量翻译过程中核糖体在mRNA 上的位置。
核酸序列分析
Smith-Waterman算法
在序列比对中,通常希望使用能够反映一个氨基酸发生改 变的概率与两个氨基酸随机出现的概率的比值的矩阵。这些比 值可以用相关几率(relatedness odds)矩阵表示。这就是突 变数据相似性分数矩阵产生的基础,在序列比对过程中,两个 序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个 比对的分值。 在实际使用时,通常取几率值的对数以简化运算。因此, 常用的突变数据矩阵PAM250实际上是几率值的对数矩阵(图 3)。矩阵中值大于0的元素所对应的两个残基之间发生突变 的可能性较大,值小于0的元素所对应的两个残基之间发生突 变的可能性较小。
Needleman-Wunsch算法 Needleman-Wunsch算法
当两个序列被联配时,通过计算其重排序列
(shuffed version) 的联配距离,可以得到这两个序列间 的最小距离估计。如果实际得到的联配距离小于重排序 列距离的95%,则表明实际的联配距离达到了5%的显 著水平,是不可能由机误造成的,即实际联配距离是正 确的。
Needleman-Wunsch算法
将两条联配的序列沿双向表的轴放置。从任一碱基
对,即表中的任一单元开始,联配可延三种可能的方式
延伸:如果碱基不匹配,则每一序列加上一个碱基,并 给其增加一个规定的距离权重;或在一个序列中增加一
个碱基而在另一序列中增加一个空位或反之亦然。引入
一个空位时也将增加一个规定的距离权重。
62%或以上相同的串用于产生BLOSUM62矩阵,依此类推。
BLOSUM与BLOCKS对于同样的 序列比对产生的结果 在局部有所不同,可能是一个认为不相似不可以替换而另一 个认为相似可以替换。必须说明,如果比对这两个序列高度 相似,这些细微的差别对整个序列比对结果的影响不大,但 在序列比对的边界区可能产生显著影响,此时增强微弱信号 以探测远距离相关变得十分重要。
序列比对
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。
进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。
此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。
在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。
但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。
因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。
通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。
通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。
因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。
序列比对方法
序列对齐(sequence alignment)的目的是通过两个或多个核酸序列或蛋白质序列进行对齐,并将其中相似的结构区域突出显示。
通过比较未知序列与已知序列(尤其是功能和结构已知的序列)之间的同源性,往往可以很容易地预测未知序列的功能。
1、两两对齐分析国际互联网上序列两两对齐资源有:①ALIGN(http://genome.eerie.fr/fasta/align-query.html),对用户所提交的两条序列进行优化对齐,允许选择不同的记分矩阵,但是不允许空位罚分。
②Align(http://www.mips.biochem.mpg.de/mips/programs/aligh.html;http://www.mips.biochem.mpg.de/)只允许对数据库的已有记录进行两两比对,不接受用户所提交的序列。
③Bl2Seq(/gorf/bl2.htm)可对任意两条序列进行两两对齐,具有Blast软件的所有功能。
2、多重序列对齐分析国际互联网上多重序列对齐程序有:①ClustalW/X。
最为著名的序列多重对齐软件包。
用户可自行下载进行数据分析。
接受多种输入格式,包括FASTA、EMBL、SWISS-PROT、PIR、GCG/MSF等,但所有输入序列必须在同一文件中。
如果输入序列中的非空格号85%以上为A、C、G、T、U、N,判定为核酸序列,否则作为蛋白质序列计算。
但核酸和蛋白质序列不能在同一文件中。
网址:/cgi-bin/newclustalw.pl;/multi-align/multi-align.html;ftp:///pub/software;②Match-Box。
同时考虑序列数据和氨基酸性质进行序列多重对齐分析。
网址:http://www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.html③BCM服务器。
Baylor College of Medicine,BCM launcher。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核酸\蛋白序列比对分析生物技术 02级 021402198 曾彪摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。
核酸与蛋白质序列分析是生物信息学的基本研究方法。
核酸与蛋白质序列分析是生物信息学的基本研究方法。
关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。
分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。
大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。
它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。
这些生物信息数据库可以分为一级数据库和二级数据库。
一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。
国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。
国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。
要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。
数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
常用的数据库查询系统有Entrez, SRS等。
数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。
面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。
线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。
核酸序列分析核酸序列的基本分析1.测定分子质量、碱基组成、碱基分布等基本数值;2.序列变换:反向序列、互补序列、互补反向序列;3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及参考文献。
4.克隆测序的分析:测序峰图的查看、核酸序列中载体的识别和去除、其他人工序列的分析和去除核酸序列的电子延伸---GenBank的UniGene数据库、意大利Tigem 的EST Machine、EMBL的EST Cluster Project等基因的电子表达谱分析---将待分析序列与EST数据库进行序列对库的检索,用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,进而得到该基因的组织表达谱。
SAGE数据库、UniGene、Tigem等。
核酸序列的电子基因定位分析---染色体定位。
–通过序列标签STS数据库定位–利用UniGene/RH放射性杂交定位–直接利用基因组序列定位cDNA对应的基因组序列分析---EST和cDNA的基因组序列查询了解该基因的基因组结构:外显子/内含子结构、转录调控区。
基于核酸序列对齐分析的功能预测–利用数据库的核酸序列的同源性分析–两条核酸序列之间的同源性分析–核酸序列之间的多重比对分析及进化分析可读框架分析1)cDNA序列的可读框架分析2)基因组序列中的编码区/内含子结构分析3)cDNA序列与基因组序列的对齐及显示,Sim4程序。
5)基因启动子及其他调控位点分析---启动子、增强子、转录因子结合位点、内含子与外显子。
6)重复序列分析7)引物设计蛋白质序列分析1.蛋白质序列检索2.蛋白质基本性质分析1)氨基酸组分、分子质量、等电点2)疏水性分析3)跨膜区分析4)前导肽和蛋白质定位5)卷曲螺旋分析蛋白质功能预测6)基于序列同源性分析的蛋白质功能预测。
Blast、Blast2、FASTA。
7)基于模体、结构位点、结构功能域的蛋白质功能预测蛋白质结构预测8)蛋白质二级结构预测9)蛋白质三级结构预测——与已知结构的序列比较、同源模建、threading算法和折叠识别DNA 芯片技术与脱氧核糖核酸序列分析在分子生物学的许多研究领域,都需要对DNA分子进行序列分析,阐明DNA 分子的一级结构是进一步认识其功能的基础。
因此,分析测定DNA 序列的能力在很大程度上决定着人们获取遗传信息、认识生命奥秘的能力。
人类基因组计划的根本目标是分析人类基因组DNA 的全部核苷酸顺序,这项计划的实施极大地促进了DNA序列分析技术的发展,各种新的高速测序技术不断出现。
在这些新的DNA 序列分析技术中,DNA 芯片(DNA chip) :技术以其新颖的构思和诱人的应用前景而受到人们的广泛关注,它综合应用了生物学、化学以及工程技术科学等学科的众多相关技术,在微型芯片上合成了高密度的寡核苷酸探针阵列,将探针阵列与待分析DNA 序列同步杂交,用高分辨率的检测装置进行扫描检测,再结台计算机系统分析处理,可以快速获取所需的遗传信息这是一种全新的DNA序列分析技术,与传统测序技术相比,它的突出优点是整个检测过程快速高效。
由于探针阵列具有高度的序列多样性,它可以同时对大量基因、乃至整个基因组进行扫描分析,从而能够使人们从一个更高的层次来全面研究基因的功能,分析不同基因之间的生物相关性这些是传统的序列分析技术所无法企及的。
随着这项技术的广泛应用,将会给分子生物学的发展带来深远的影响,特别是将在以研究基因定位和基因功能为主的后基因组计划中发挥越来越太的作用。
DNA 芯片是生物芯片的一种,也称为微阵列(Microarray),是指由大量探针按一定的顺序排列在固相载体表面而形成的探针阵列,目前DNA 芯片主要包括eDNA 芯片和寡核苷酸芯片。
探针阵列的合成目前主要有两种方式:(1)离片合成法(Off-Chip Synthesis);(2)在片/原位合成法(On—Chip/in situ Synthesis)。
DNA 芯片是通过核酸杂交原理来进行序列分析的,将标过的未知序列与芯片上的探针阵列进行杂交,严格控制反应条件,如靶序列浓度、杂交温度及缓冲溶液浓度等,那么与靶序列完全互补的探针显示比较强的杂交信号,利用高分辨率的检测装置检测出完全互补的探针,经过计算机系统分析处理,即可确定待测序列。
DNA 芯片可广泛应用于涉及DNA 序列分析的众多研究领域。
目前DNA芯片技术主要应用于比较分析特定基因的遗传多样性,检测多态性位点用于基因定位,检测突变位点诊断遗传病,监测基因的表达水平,DNA 测序以及进行其它的序列比较等方面的研究。
1 检测多态性/突变位点利用DNA芯片技术,可以同时检测众多基因乃至整个基因组的多态性/突变位点。
在用寡核苷酸芯片扫描分析特定基因时,针对不同的检测目的,可以设计台成出不同形式的探针阵列,将待分析序列与这四个探针同时杂交,严格控制杂交条件,那么完全互补探针的杂交信号最强,从而可以确定位点;2 DNA 测序SBH(Sequencing by Hybridizati0n)法是近年来提出的一种新的DNA 测序方法,它用一系列较短的已知序列的寡核苷酸探针,与较长的待分析序列杂交,寻找其互补序列,根据杂交结果分析待测DNA 序列。
人类基因组计划的实施,对现代分析科学提出了严峻挑战,同时也给分析科学的发展带来了巨大的机遇,促进了分析科学与众多相关学科的渗透融合。
DNA芯片技术正是在此基础上发展起来的一种全新的DNA 序列分析技术,这一技术已在分子生物学的许多研究领域显示了巨大的潜力和诱人的应用前景。
目前DNA 芯片技术的研究与应用正处在一个迅猛发展、日趋完善阶段,在不断拓展其新的应用领域的同时,还需要进一步提高探针阵列的合成密度以及检测系统的分辨率与灵敏度,更重要的是要使这项技术逐步实现常规化与自动化。
随着这一技术的逐步完善与广泛应用,将会在二十一世纪的分子生物学中发挥更大的作用。
质谱及隐马尔可夫模型在肽和蛋白质序列分析中的应用了解肽和蛋白质的序列对理解其功能具有重要意义,测定其序列也是当前生命科学研究中的重要内容之一.质谱作为高灵敏度的测定分子结构的仪器,其高灵敏度、广泛的适用性及快速性等特性使它具有很大潜力发展成为辅助传统测序方法的新方法,并得到了广泛的关注.肽和蛋白质序列的质谱测定方法质谱用于肽和蛋白质的序列测定主要可以分为三种方法.一种方法叫蛋白图谱(protein mapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列;第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基.其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂;第三种方法与FAman法有相似之处,即用化学探针或酶解使蛋白或肽从N端或c 端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(1adder sequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基.隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域。
目前,人们已经得到大量的蛋白质序列和结构数据,传统研究蛋白质的方法已经不再实用,生物学家已经转向能够处理大量数据的统计方法来进行研究。
隐马尔可夫模型可以通过训练,识别同一特征的蛋白质序列。
从SCOP数据库中选择了一个蛋白质族,由它得到了能够代表该族特征的隐马尔可夫模型,并用该模型对一些蛋白质序列进行分析。
隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域,它的基础是计算机技术、统计学和分子生物学。
HMM 可被用于蛋白质同源性的研究。
它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markov 链,另一个是与Markov链的每一状态相关联的观察结果的随机过程。
隐Markov链的特征要靠可观测到的信号揭示。
编码蛋白质的原始DNA 序列,在生物的进化过程中,会受到自然环境和各种因素的影响,使翻译出的蛋白质序列经历突变,遗失,或引入外源序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。