考研_952生物信息学_考试大纲+解析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
952《生物信息学》考试大纲及解析
本《生物信息学》考试大纲适用于中国科学院大学报考生物信息学专业的硕士研究生入学考试。
生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性科学。
它采用信息科学、计算机科学、生物数学、比较生物学等学科的观点和方法对生命的现象及其组成分子(核酸、蛋白质等)进行研究,主要研究生命中的本质和规律,包括物质组成、结构功能、生命体的能量和信息交换传递等。
通过对生物信息的计算处理,人们能从众多分散的生物学观测数据中获得对生命运行机制的详细而系统的理解。
考试内容
★生物信息学概论和数据库
★序列数据的收集和存储
★基因组序列组装和基因注释
★基因结构元件识别和分析
★双序列与多序列比对
★数据库检索算法
★序列变异研究的算法与进化分析
★数据可视化
★基因表达与调控网络
★表观遗传学数据分析
★蛋白质分类与结构预测
考试要求
★了解生物信息学概念、研究方向
•生物信息学是一门研究生物和生物相关系统中信息内容和信息流向
的综合性科学。
它采用信息科学、计算机科学、生物数学、比较生物学
等学科的观点和方法对生命的现象及其组成分子(核酸、蛋白质等)进
行研究,主要研究生命中的本质和规律,包括物质组成、结构功能、生
命体的能量和信息交换传递等。
通过对生物信息的计算处理,人们能从
众多分散的生物学观测数据中获得对生命运行机制的详细而系统的理
解。
★发展趋势和重要事件
•1953DNA双螺旋结构
•1955牛胰岛素蛋白质序列生物信息学基础
•1967Dayhoff蛋白质序列数据库
•1971蛋白质结构数据库protein data bank PDB
•1974欧洲分子生物学实验室EMBL建立
•1977化学降解法链终止法发明第一个基因组序列噬菌体
•1982GenBank数据库建立
•1986SwissProt蛋白质序列数据库建立人类基因组计划提出
•1987日本DNA数据库DDBJ发行
•1990人类基因组计划启动
•1995全基因组鸟枪法完成流感嗜血杆菌全基因组测序
第一个全基因组序列基因组时代开始
•2003人类基因组计划完成
★包括泛基因组和元基因组的概念,和第一个基因组数据库的产生等。
•Meta-genomics又称宏基因组或元基因组,指应用基因组学研究的
策略和技术,直接研究自然生态下群体或群落中微生物的组学,最早在研究土壤微生物时提出。
人类META基因组计划又称人类第二基因组计划,对象是人体内微生物
•Pan-genome泛基因组,原意指一个微生物物种之内不同的株系的基因组大小和组成的高度多样性;人类泛基因组指人类所有个体“共有”
的基因组以及一些群体、个体特有的区段的总和
•第一个基因组数据库ACEDB线虫数据库
★了解重要的生物信息中心和常用数据库(包括DNA序列数据库、基因组数据库、蛋白质序列及结构数据库)
★了解不同类型序列数据的获取方式,掌握常用的序列存储格式及转换方式。
•GenBank中DNA序列条目
LOCUS名称,长度,归类
DEFINITION描述
ACCESSION唯一检索号CP002684
VERSION版本CP002684.1
DBLINK数据库链接BioProject:PRJNA10719
BioSample:SAMN03081427
KEYWORDS关键字
SOURCE来源Arabidopsis thaliana(thale cress)
ORGANISM来源描述Arabidopsis thaliana
REFERENCE参考文献1(bases1to30427671)
FEATURES注释
source/misc_signal/mRNA/CDS/intron/mutation ORIGIN完整序列ATCG
//结束符号
•DDBJ,EMBL格式与GenBank类似
•SwissProt蛋白序列数据库
•FASTA序列格式
储存简单的序列数据(核酸或蛋白质),除ATCGU外还有13个额
外字符表示不确定的碱基。
FASTA第一行以‘>’起始,后面是注释,
名称和序列来源。
第二行是序列。
•FASTQ序列格式
一般都包含有四行,第一行由‘@’开始,后面跟着序列的描述信息,
与FASTA一样。
第二行是序列。
第三行由‘+’开始,后面也可以
跟着序列的描述信息。
第四行是第二行序列的测序质量评价,字符数
跟第二行的序列是相等的。
•ALN基因组位置信息储存格式
染色体【tab】位置【tab】方向(+/-)
•BED
染色体【tab】起始位置【tab】终止位置...(9个附加字段)
主要用于UCSC Genome Browser的数据可视化
•Wiggle(WIG)可视化信息的紧凑形式存储
定义了基因组区段而非一条read的显示参数
•GFF3Generic Feature Format
由tab隔开存储基因组序列特征及注释的文本文件
•SAM和BAM
SAM Sequence Alignment/Map用来存储比对至参考基因组的read
BAM是二进制文件,由索引的、压缩的、结构化的SAM数据组成•Useq
基因组数据所在目录用zip压缩的二进制格式
•SAMtools
SAM和BAM格式转换,数据处理,可视化
•READSEQ
及其有用的序列格式化程序,可识别多种DNA或蛋白质序列文件,
然后转换为其它格式
★掌握常用序列联配算法及软件
*直系同源orthology不同物种内的同源序列,来自于物种形成时的共同祖先基因
*旁系同源paralogy通过类似基因复制的机制产生的同源序列,处于同一物种内
•点阵分析点阵法Dot Matrix
一条序列纵列在左端,一条序列横排在上首,交叉位置上若出现相同的值,就标注一个点。
排列成对角线的点反映序列间相同的字符串。
可用于寻找蛋白质和DNA序列中的正向或反向重复序列,并预测RNA中的自补区域。
优点在于可以找到两个序列间所有可能的残基匹配。
过滤是指通过一个滑动窗口来比较两个序列,当某一个最小匹配数出现时,该页上才打一个点。
DNA较蛋白质序列所用的窗口规模要大。
•全局比对算法Needleman-Wunsch
设置一个矩阵。
一条序列长m沿X轴,一天序列长n沿Y轴,则矩阵为m*n。
给矩阵打分。
如果单元格行列对应的残基相同,则赋值为+1,不相等赋值为0。
然后从矩阵右下角开始向左上角:
每个单元格[i,j]=[i,j]+Max{[i+1,j+1];[i+1;j+2~m];[i+2~n;j+1]}
确定最佳比对。
从矩阵中的最大值开始,每一步对向对角线及其右下方寻找最大值。
以上是Needleman&Wunsch在1970年论文中的描述,现在的N-W 算法略有不同。
引入了打分系统,给匹配,不匹配,缺失(空位)以
相应的分值。
计算顺序变为从矩阵左上向右下,一次遍历。
[i,j]=[i,j]+Max{[i+1,j+1];[i+1;j+2];[i+2;j+1]}
•局部比对算法Smith-Waterman
与N-W最重要的不同在于1.记分系统必须包括错配的负分值;
2.当一个单元格为负值时设定为0,作用是使任何对位排列在那一点
终止。
矩阵的顶部行和左边赋值为0。
[i,j]=Max{[i-1,j-1]+S[i,j];对角线加上该单元格匹配/不匹配分值[i,j-1]-Gap;左边单元格减去空位罚分
[i-1,j]-Gap;上方单元格减去空位罚分
0;}保证矩阵中没有负值
S-W算法本身不能保证结果就是局部对位排列。
记分矩阵、错配记分与间隔罚分的选择也影响到是否能够得到局部对位排列。
如果使用记分矩阵,对于局部对位排列,错配记分和间隔罚分将抵消一部分匹配正分,防止对位排列延申至那些匹配不佳的区域。
记分矩阵会为匹配位点给出平均负值,间隔罚分也会足够大。
•基于Burrows-Wheeler变换(BWT)的比对
为生成BWT,我们在参考字符串T末尾加上末端字符$,该字
符在字母表中的位置比T中所有字符都考前。
生成所有T$文本的循环平移排列,共有原始字符串长度加1种排列,平移后的字符串组成所谓的Burrowa-Wheeler矩阵的行。
然后将行按照字母表排列,得到结果的最后一列(最右端)就是原始字符串T的BWT(T)。
第一列作为基因组字典。
一个后缀数组S存贮BWT中每个字符在原始字符串中的位置,$为0。
Burrowa-Wheeler矩阵的行按照字母表排列后,在最后一列中第i次出现的字符c和第一列中第i次出现的字符c相对应。
查找时以相同字符为起始,暴力搜索所有可能。
以“caa”为例,搜索“acaacg”,选取c为起点,因为有两个c,因此有两种可能匹配。
•Bowtie计算错配时引入了“回溯”机制。
当精确匹配返回一个空区间时,软件回溯到最小质量字符的位置并替换成另一个碱基。
•SOAP2是SOAP的升级版。
它构建了一个哈希表以加速搜索read 在BWT参考序列索引中的位置。
★了解打分矩阵及空位罚分算法。
•氨基酸置换矩阵
已知大量蛋白质中的变化类型就可以帮助我们预测任何一组蛋白质序列的对位排列。
氨基酸从A变到B的可能性总是假设成与从
B到A一样。
•Dayhoff氨基酸置换矩阵(PAM:mutation probability matrix)矩阵给出了一定进化时期内同源蛋白质从一个氨基酸变到另一个氨基酸的概率。
PAM矩阵由71组蛋白质序列中的1572种变化(至
少85%相似)来估计蛋白质中的氨基酸置换。
氨基酸置换可以视为一
个马尔可夫模型,目前氨基酸的一个特定位点的每一个变化都假定是
独立于该位置上以前的突变事件。
据此可以对远缘蛋白质N突变进
行预测,PAM定义为进化趋异的单位,即两个蛋白1%氨基酸发生变
化的时间,PAM1矩阵可以自乘N次得到其它PAM矩阵。
PAM250
矩阵代表了25亿年中250%的预期变化水平。
PAM矩阵可以转换成打分矩阵,也称对数比值矩阵log-odds matrix
或相关比值矩阵relatedness odds matrix。
M ab表示残基a突变到b的
概率,P b表示b随机出现的概率。
比对a、b的分值S(a,b)=10*lg(M ab/P b)
PAM矩阵假设蛋白质上每个位点的变化是独立于其它位点的,而实
际上突变能力在各位点是可变的。
•区块氨基酸置换矩阵BLOSUM:blocks substitution matrix
矩阵值是基于大约2000个保守氨基酸模式(区块)中所观察到的氨基酸置换的,较由自乘产生的PAM符合实际观测结果。
BLOSUM 矩阵是对整个不同类型的亲缘关系较远的序列进行分析,且数据集比PAM矩阵大得多。
于PAM一致的是,矩阵中的数值来自对位排列中所观察到的残基变化,即出现频率与期望频率之比。
BLOSUM矩阵可以区分随机排列和真实排列,还可以尽可能多的确定已知蛋白质家族中的成员。
PAM矩阵对相关序列中所有的氨基酸位置进行记分;而BLOSUM则是基于保守区域的置换,保守区域代表了相关序列中最相似的区域。
因此,PAM可用于蛋白质起源进化,而BLOSUM则用于发现蛋白质保守区域。
BLOSUM62后的数字代表构建矩阵时所用序列的相似性。
•核酸PAM记分矩阵
DNA矩阵可以容许模糊DNA形状,以及从突变分析中获得的信息,这些信息揭示了转换A<->G;C<->T要比颠换(嘌呤与嘧啶之间)更可能发生。
•罚分算法
对置换矩阵的记分范围而言,如果用一个太高的间隔罚分,间隔就不会出现在排列中。
相反如果间隔罚分与矩阵记分相比太低,那么间隔就可以出现在任何地方。
长度为n的罚分要小于n个单一间隔的记分。
最简单方法就是间隔记分为一个线性函数W x=g+rx,x是间隔长度,g为较大间隔罚分,r为间隔扩展罚分。
对于两端间隔,如果比较同源并具有相同长度的序列,包括两端间隔罚分对于实现最好的全局排列具有重要意义。
对于那些同源性未知或不同长度的序列,使用不包含两端间隔罚分的局部排列也许更好。
如果用一个非常高的错配记分和间隔罚分,结果就不会包含任何间隔,并被定义为最长公共子序列。
★理解多重序列比对与进化分析的关系
一组序列的多重排列也可以看作是序列的进化历史。
如果多重排列中的序列排列得很好,他们通常可以看作是起源于一个共同的祖
先。
相反,一组排列很差的序列则可能有更复杂、更远缘的进化关系。
一组序列的排列工作与揭示序列间的进化关系是一致的。
从排列开
始,人们能了解进化过程中序列出现的顺序。
★掌握常用渐进算法及软件。
•多重排列的动态规划算法Dynamic Programming
多重排列很少产生一种可证明的最优排列,动态规划算法在某种程度上仅仅只能用于少量的序列。
对三序列排列不用二序列的二维矩
阵,而是用三维的立方体格子。
对3个以上序列排列,必须想象填满
一个N维超立方体,所需的步骤和容量对于实际运用来说太大。
软
件:MSA
•多重排列的渐进方法Progressive Method
MSA程序常常限制在8个序列以内,渐进法则使用动态规划方法,从最相关序列开始,然后逐步将相关性较大的序列叠加到起始序
列中。
CLUSTAL程序:1.对所有序列进行两两比对排列;2.用排列记分生成系统树(邻接法);3.以系统树中示出的关系为指导,依次排
列序列。
因此,关系最近的序列首先被排列,然后其他序列逐一加入。
为了构建系统树,需要计算序列间的遗传距离,即排列中错配位置的
数目。
像其他排列程序一样,CLUSTAL在序列排列中对开放的间隔
使用罚分,并且对一个残基的间隔扩展赋予附加罚分。
PILEUP程序:GCG软件包的一部分,和CLUSTAL相似。
用N-W动态规划算法对序列进行成对排列,用不加权对群法UPGMA
和记分建树,结果树被用于指导近缘序列和序列组的排列。
渐近排列程序的主要问题是最终的多重排列必须依赖起始的成对排列,最先排列的序列在序列树上最为相关。
如果这些序列排列得
很好,在起始排列中的错误就会很少。
然而,序列之间关系越远,错
误就越多,而且这些错误还将在多重排列中不断扩大。
第二个问题是
如何选择合适的记分矩阵和间隔罚分。
•多重排列的迭代方法Iterative Method
在渐近排列的产生过程中重新计算成对记分并将这些记分用于建树,
而该树又被用来重新定义排列以此改善记分。
•多重排列的遗传算法Progressive Method
遗传算法是一种通用的机器学习算法。
★掌握FASTA和BLAST系列算法。
•FASTA序列数据库相似性搜索Fast Alignment局部对位排列
FASTA是一个对蛋白质和DNA序列进行快速对位排列的程序。
FASTA不是比较两个序列中单个的残基,而是搜索查询序列中长度
为k的所有可能的残基字串,成为k-串/k-tuple。
软件的第一步是找
出两条序列上所有精确匹配的k-tuple,DNA序列k为4~6,蛋白质
序列k为1~2,并定位到矩阵上,相邻的k-tuple被连接成较长的含
空位的匹配区域,形成对角线(类似点阵法)。
第二步利用打分矩阵
对这些对角线进行打分评估,选取10个最佳对角线,得分最高的对
角线称INIT1,用‘*’标记表示。
以INIT1为中心在一个很窄的对角
线区域,使用动态规划的方法找到最高分值的比对,分值记为opt。
FASTA输出在数据库中比对分值最高的序列。
在k-tuple的查找过程中使用了散列哈希表构建了查询数组。
•BLAST基本局部对位排列搜索工具basic local alignment search tool
启发式算法,通过将搜索限制在更窄的矩阵对角条带上,来改进FASTA进行数据库搜索的速度。
BLAST将查询序列所有可能的w长
度的(核酸序列默认为11,蛋白质为3)子序列words存储在一个
哈希表中。
搜索数据库中所有与子序列精确匹配的序列,作为种子,
再向两个方向继续延申,不允许有空位或错配的情况,产生一个较长
的序列串称HSP。
然后,在限制区域内连接延申的匹配序列,允许
空位和错配,比对的分值要大于设定的阈值T。
查询序列可以选择过滤掉本身的低重复性区域,这些区域往往有一个较高的序列记分但不反应序列的相似性,去掉这类区域将增加更
显著的数据库搜索结果。
•FASTA和BLAST都是基于启发式算法,因而,可能检测不出某些远缘序列相关性。
•位置特定记分矩阵PSSM:position weight/specific scoring matrix 由对序列保守区块进行多重排列分析得到,该矩阵给出了每个氨基酸
在基序中的频率。
简而言之,首先将序列模式进行多重序列对位排列,
使相应的残基在同一列。
计算排列中每一列氨基酸的数目,放在矩阵
的相应列,随后,这些计数用加权法进行校正。
搜索时,每个可能的
序列位置通过随序列一次滑动一个位置的矩阵来记分。
★理解进化分析与亲缘树的关系
•进化树是显示不同生物中特定基因序列间进化关系的一种二维图。
内部节点又称分支点,代表进化事件发生的位置,或代表分类单元进化历程中的祖先。
外部节点代表实际观察到的分类单元,可以是物种也可以是序列。
每一新分支上的进一步进化变化与其它新枝上的变化无关。
每一树枝到下一节点的长度代表下一水平分离前出现的变化数。
★了解三种进化分析算法(最大似然法、距离法和最大简约法)。
•所选序列可以是DNA或蛋白质序列,序列排列不应有大量间隔。
一般来说,系统发育分析方法分析了所有序列中出现的保守区域。
序列越相似,分析就越好。
分子系统发生分析主要分为4个步骤:选择可供分析的序列;多序列比对;构建系统发生树;系统发生树的评估。
•最大似然法Maximum Likelihood
目标是寻找以最高概率发生的系统发生树。
系统发生树的似然值由单个位点的似然值相乘而得。
单个位点的似然值指在一定核苷酸替
代模型中该位点在各个分类单元中出现的所有核苷酸可能被替代或
再现的概率之和。
可用于探索远缘序列间的关系。
•距离法
距离法首先根据某种进化距离模型计算出所有分类单元间的进化距离,构建距离矩阵,然后依次聚类进化距离最短的类。
具有最小变化数的序列对成为“邻居”。
最简单的距离测算方法是统计两序列间不同的核苷酸碱基或氨基酸残基(也称差异位点)数目所占全序列长度的比率,又称p 距离(p-distance )。
对于序列长度为N 、差异位点数目为n 的比对,其p 距离为:
100%N n p ⨯⎪⎭
⎫ ⎝⎛=UPGMA 法有根树
1.首先计算各分类单元两两间的进化距离,得到初始距离矩阵。
2.寻找具有最小距离d(C i ,C j )的两个类C i 和C j
3.建立一个新的类C k =C i ∪C j
4.在系统发生树中,将新的类C k 作为节点C i 和C j 的父亲节点,且节点i,j 到父亲节点k 的高度为d(C i ,C j )/2(与FM 算法的主要区别)。
5.用C k 替代原来的C i 和C j ,计算新的距离矩阵。
Fitch-Margoliash 算法无根树
1.
找出关系最近的序列对,如A 和B 。
2.将剩余序列作为一个简单复合序列。
分别计算A 以及B
到该复合序列的距离的平均值。
3.用这些值来计算a 和b 间的距离。
(a+b=AB;a+c=AC;b+c=BC;则a=;b=;c=;)
4.将A 和B 作为一个单一的复合序列AB ,计算AB 与每
一个其他序列间的距离,生成一个新距离表。
5.确定下一对关系最近的序列,重复前面的步骤计算枝长。
近邻法/邻接法Neighbor Joining无根树
邻接法首先将各分类单元与一个共同的祖先节点X相连,聚类成一棵星型树。
下一步通过合并序列来修正这棵星形树。
在此过程中每一种可能的序列对都将被选择,相应于每种树的枝长之和都会被计算。
每一步修正都在最大程度上降低枝长。
•最大简约法Maximum Parsimony
理论来自奥卡姆Occam剃刀原理,用最少的进化事件去解释观察到的数据,在任何进化模型或机制下假设尽可能少。
最大简约法就是要构造一棵反映分类单元之间最小变化的系统发生树。
这种方法在用于序列非常相似以及序列数目较小的情形时最为适用。
最大简约法首先要找出简约信息位点parsimony informative site。
简约信息位点至少含有两种不同的字符特征,并且这些字符特征至少出现两次。
剩下的位点称为非信息位点uninformative site。
最大简约法假设这些简约信息位点已含有了足够的信息以产生“最优”的系统发生树。
随后对所有可能的树(只由简约信息位点构成)都计算其成本价值,选择其中长度最小,代价最小的树作为最终的系统发生树。
最大简约法中,任意两个字符之间替换代价相同。
若对每一种替换都给与相应的代价值,则可能更真实的反映生物的自然演化过程,这就是加权最大简约法。
•系统发生树的检验
对随机误差的影响,常采用自展法bootstrap method来进行检验。
自展法是对原有数据进行重复取样的一种方法。
由于一般数据不可能
真正的重复取样,只能由原有数据产生假重复数据。
首先从原始数据
的比对结果中随机抽取一列,放回后再抽取,直到产生一组相同长度
的比对结果,各个位点/列被抽取的次数可能不同。
然后对这个新数
据集采用相同方法建树。
重复以上过程,产生100~1000棵自展树。
将系统发生树与各个自展树进行比较,在自展树中出现频率越高的拓
扑结构,其自展检测值越高、置信度越高。
一般情况下大于70%被认
为是可靠的。
★掌握多种生物信息数据的可视化软件,包括从头组装数据、变异发掘数据、扩增子深度测序数据、基因表达数据和表观遗传学数据等。
•UCSC Genome Browser基因组浏览器
使用非常广泛的一款基于web的基因组可视化工具,采用压缩的二进制文件格式,即BigBed和BigWig。
用户可以可视化大量不同
的注释数据(GenBank序列、基因预测模式、基因表达实验、基因功
能、序列变异、比较基因组学、染色体结构、调控模式等)
•Illumina GenomeStudio
主要用于Illumina测序平台的数据分析,研究人员可以利用软件包内置模块解决所有核酸测序研究的主要问题(DNA测序、RNA测
序、ChIP测序、基因分型、miRNA表达谱、甲基化、蛋白质分析)•Mauve
构建多序列基因组比对的软件包,可以完成项目从最早阶段直到最终比对特征展示的全过程。
•Newbler扩增子变异分析仪Amplicon Variant Analyzer
又称GS从头组装工具,是一款针对Roche454测序仪产生数据进行从头组装、多序列比对、可视化的软件包。
•Integrative Genomics Viewer(IGV)
IGV可以展示多种本地文件格式的NGS数据(FASTA、FASTQ、SAM和BAM)、基因表达芯片数据和基因分型数据
•GenomeView
第二代基因组单机可视化浏览器软件包。
提供交互式序列可视化、注释信息、多序列比对、共线性定位和短read比对。
支持多种
标准文件格式,可以读写BAM文件。
•Generic Genome Browser(GBrowser)
是一般模式生物数据库GMOD体系的一个模块,基于网页的基因组可视化工具。
★掌握开放阅读框的预测方法
寻找编码蛋白质的DNA序列最简单的途径就是搜索开放阅读框ORFs。
ORF是一定长度的一段DNA序列,包含相邻近的一组密码子。
每个序列都有6个可能的开放阅读框(两条链各3个)。
ORF从DNA 上一个有效的Met起始密码子开始到下一个终止密码子结束。
不编码蛋白质的基因组序列有许多短ORF,因为存在许多终止密码子。
在随机DNA序列中两个相邻的终止密码子之间的密码子的平均数目是64/3≈21。
这一数目比编码蛋白质的平均密码子数量(大约300)要小得多。
因此,比某些阈值长度要长的ORFs预示了潜在的基因,然而这种算法可能无法检测出短基因或含短外显子的基因。
★理解重复序列对基因预测的影响
真核基因具有可能反映核小体结构的重复序列成分。
一些调节转录的蛋白质结合位点就有可能会隐藏在核小体内部,位于启动子区域的核小体可以以某种形式重建,能或多或少地影响调控蛋白结合位点的有效性。
用隐马尔可夫模型分析和其他类型的模式搜索方法,发现在真核基因的内含子和外显子以及转录起始位点附近的序列重复模式。
这些重复序列似乎与核小体的位置关联。
★掌握微生物基因组的基因预测
基因预测的目的是要确定编码蛋白质的基因组DNA区域。
注解包括基因组定位、基因结构(预测的外显子/内含子位置和调控位点),以及所翻译的外显子与蛋白质序列数据库的匹配数据。
主要有三种基因预测的方法,一种是统计方法,用于寻找在基因中出现频率较高而在其他地方(如内含子等)出现频率较低的特征;另一种是基于相似性的基因预测方法,新测序的基因常会与序列已知的基因相关。
还有一种是利用基因产物(包括cDNA、EST以及蛋白质等)反推基因结构。
在原核生物中预测蛋白质编码基因通常比在真核生物中更容易,因为原核生物通常缺乏内含子,而且可以在启动子区域以及转录组和翻译起始位点附近发现若干具有较高保守性的序列模式。
当发现标志基因的一组不同特征模式在一段未知序列上具有相同的顺序和间隔时,则这样的预测会比仅一种模式更为可靠。
这些各种各样的调控位点的一致模式可以用对位排列、统计学和神经网络的方法来发现。
★理解真核生物基因预测与外显子识别的关系
•真核基因预测的常用方法依赖于训练一个计算机程序以识别基因组DNA序列上已知外显子的特征。
然后,该程序便可以用于在位置基因组序列中预测外显子位置并将这些外显子加入到预测的基因结构中。
RNA剪接位点的模式非常不保守,很少有一致位置。
因此,内含子-外显子边界不能通过简单的模式搜索方法来精确定位。
•神经网络提供了一种序列分析的方法,该方法能在不明显的序列位置间发现复杂模式和关系。
一个数据输入层,数据来源于候选外显子序列。
一个隐藏层分析输入数据间的关系。
一个输出层表明该区域是否为外显子。
该系统用一组已知编码序列来训练,当用到每一序列时,神经元之间的连接强度和类型(正或负)就会被调整。
•模式判别的方法为统计学方法,基于一个或多个已知序列模式对序列进行分类。
分析编码和非编码序列中多达9种不同的序列模式特征。
判别分析的目的是在这两组序列间确定一个边界以使他们可以最大程度地分开,或者边界与每一点距离之和最小。
Support Vector Machine。