生物信息学复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学复习资料
第一章
1、什么是生物信息学?
生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义
2、BIOINFORMATICS这个词是谁提出的?
林华安
3、生物信息学的发展经过了哪些阶段?
前基因组时代、基因组时代、后基因组时代
4、HGP是什么意思?什么时候开始?什么时候全部结束?
人类基因组计划、1990.10、2003
5、生物信息学的研究对象是什么?
6、生物信息学的研究内容有哪些?
获取人和各种生物的完整基因组、新基因的发现、SNP分析(单核苷酸多态性:single nucleotide polymorphism,SNP)、非编码区信息结构与分析、生物进化;
全基因组的比较研究、蛋白质组学研究、基因功能预测、新药设计、遗传疾病的研究以及关键基因鉴定、生物芯片
7、学习生物信息学的目的是什么?
阐明和理解大量数据所包含的生物学意义
第二章
1、生物信息数据库有哪些要求?
时间性、注释、支撑数据、数据质量、集成性
2、生物信息数据库分为哪几级,每一级是如何让定义的,每一级各包含哪些数据库?
一级数据库二级数据库;
一级数据库:
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
二级数据库:
对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的
一级数据库:包括基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库
二级数据库:根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的数据库
3、请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。
网站:NCBI、EBI、SIB、HGMP、CMBI、ANGIS、NIG、BIC
核酸数据库:EMBL、DDBJ、GenBank
蛋白质序列数据库:PIR(Protein Information Resource)、SWISS-PROT、TrEMBL、UniProt、NCBI
生物大分子数据库:PDB(Protein Data Bank)
蛋白质结构分类数据库SCOP、蛋白质二级结构数据库DSSP、蛋白质同源序列比对数据库HSSP
4、NCBI和EBI使用的搜索引擎分别是什么?
NCBI提取工具:Entrez EBI提取工具:SRS6
5、GENBANK使用的基本信息单位是什么,包括哪几个部分,最后以什么字符结尾?
基本信息单位:GBFF(GenBank flatfile, GenBank平面文件)格式:GBFF是GenBank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一
哪几个部分:头部包含整个记录的信息(描述符)、第二部分包含了注释这一记录的特性、第三部分是核苷酸序列本身
最后字符:所有序列数据库记录都在最后一行以“//”结尾
6、什么是Refseq?
The Reference Sequence database 参考序列数据库
RefSeq数据库,即RefSeq参考序列数据库,美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质序列
7、FASTA格式有哪些部分组成,以什么字符开始?
8.NCBI的在线和离线序列提交软件是什么?
在线提交软件:Bankit 离线提交软件:Sequin
第三章
1、什么是同源、直系同源、旁系同源?同源性和相似性有什么区别?
同源性:两条序列有一个共同的进化祖先,那么它们是同源的
相似性:序列间相似性的量度
同源性和相似性的区别:同源性是序列同源或者不同源的一种论断,而相似性或者一致性是一个序列相关性的量化,是两个不同的概念
直系同源(orthology):不同物种内的同源序列
旁系同源(paralogy):同一物种内的同源序列
2、什么是序列比对、全局比对、局部比对?序列比对的关键问题是什么?
序列比对:根据特定的计分规则,将两个或多个符号序列按位置比较排列后,得到最具相似性的排列的过程。
全局比对:序列全长进行比对,寻找一个最佳的配对。
局部比对:子序列比对,只需要寻找局部的最佳匹配。
关键问题:计分矩阵和算法
3、核酸序列比对的记分矩阵有几种?试列出这几种积分矩阵。
计分矩阵:三种等价矩阵、GLAST矩阵、转换颠换矩阵(transition,transversion)
等价矩阵
转换颠换矩阵(transition,transversion)
4、蛋白质序列比对的的记分矩阵有几种?遗传密码矩阵和疏水矩阵是怎样得到的?
计分矩阵:六种等价矩阵、遗传密码矩阵GCM、疏水矩阵、PAM矩阵(Point Accepted Mutation)、BLOSUM矩阵(Blocks Amino Acid Substitution Matrices)、PAM矩阵(Point Accepted Mutation)
遗传密码矩阵:
疏水矩阵:
5、试述PAM和BLOSUM矩阵后面的数字与需要比对的序列之间相似性的关系。
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大,采用BLOSUM矩阵时,后面的数字越小
6、什么是线性罚分和仿射罚分?计算公式是怎样的?
线性罚分:
xg
w
=
x
仿射罚分:
()1-
w
g
r
+
=x
x
7、点阵法序列比对是怎样进行的?滑动窗口技术有什么作用?
点阵法:点阵法是最基本的,也是很重要的一种可视化序列比对方法。
“矩阵作图法”或“对角线作图”
◆首先建立一个矩阵,两条序列的长度分别为矩阵的行数和列数,一条序列置于矩阵的顶部,一条序列置于矩阵的左侧。
◆把具有相同字符的单元做标记
滑动窗口技术:
◆由于序列可能很长,而字符只有4个(核酸),所以会有很多随机性的没有生物学意义的相似性,这些是比对中的噪声。
◆使用滑动窗口代替一次一个位点的比较是解决噪声问题的有效方法。
◆假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记。
◆基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域
8、Needleman-Wunsch算法和Smith-Waterman 算法哪个是全局比对,哪个是局部比对?它们的具体算法是怎样的?
◆N-W算法是一种全局比对动态规划算法
例:利用Needleman-Wunsch算法对两条DNA序列进行全局比对。
a=ATTCCAAG,b=TTCGAGT,打分系统是(4,-3,-4),匹配4分,不匹配-3,空位-4
◆首先确定打分系统
然后分3步:
(1)构造动态规划矩阵,并给动态规划矩阵赋初值
(2)按照最优分的递归算法填充动态规划矩阵
(3)从最后一个单元格开始,回溯最优化比对路径
S-W算法是局部比对算法
步骤:
1)初始化全填0。
2)按下列方法填充动态规划矩阵:填0时不画箭头
公式:
3)回溯时从最大值开始,遇到0则结束
例:
利用S-W算法对两条DNA序列进行局部比对。
a=ATTCCAAG,b=TTCGAGT,得分系统:{4,-3,-4}
9、用动态规划法找出两序列的所有最佳比对,要求写出详细过程。
打分矩阵采用{(4,-3,-4},即匹配得4分,不匹配得-3分,空位得-4分。
序列1:AAAG,序列2:ACG
第四章
1、BLAST是什么英文名词的缩写,中文含义是什么?
BLAST (Basic Local Alignment Search Tool、基本局部比对搜索工具)
2、请简述BLAST的基本算法,其关键是什么?
简述:
◆数据库搜索相似序列的基础是序列的相似性比对,就是将查询序列与数据库里面的序列逐一的两两比对分析。
◆由于现在数据库信息量很大,这样简单重复的分析非常耗时。
所以开发了一些近似的算法以提高速度,目前使用最广泛的序列对数据库相似性搜索的应用程序是FASTA和BLAST。
◆BLAST算法跟之前讲的动态规划法算法有所不同,处理速度更快
关键:high-scoring pair,HSP
延伸:
◆在BLAST算法的第三步:“字”对命中后,向两端延伸,一直到得分(按照某个打分矩阵)不再增长,由此就得到一定长度的保持最好得分的序列串,称高记分片段对(high-scoring pair,HSP)
◆序列相似性不一定就是有生物学意义的,随机也会产生一定的相似性序列。
BLAST中一般用一个E值(Expectation value)来表示比对的显著性。
E值表示如果数据库是随机序列,那么得到同样的比对结果的序列的频率。
这个值越小越好,说明越有生物学意义。
3、NCBI的BLAST有多少种,是哪几种,分别需要进行多少次比对?
五种:
nucleotide blast:查询序列为核酸序列,搜索(比对)的数据库为核酸数据库,包括正义链(plus)和反义链(minus)。
1
protein blast:蛋白质序列对蛋白质序列。
1
blastx:查询序列为核酸序列,数据库为蛋白质数据库,6种可能翻译方式。
6
tblastn:查询序列为蛋白质序列,数据库为核酸序列。
6
tblastx:数据库和查询序列都为核酸序列,但是进行蛋白质的比对,也就是每两条序列要进行36次比对36
Program Input Database
1
Blastn DNA→→→→DNA
1
Blastp protein→→→→protein
6
blastx DNA→→→→protein
6
tblastn protein→→→→DNA
36
tblastx DNA→→→→DNA
4、哪些是NCBI的BLAST的合法输入格式?
可以输入序列的ACCN号,gi号或者FASTA格式的序列
1)FASTA格式
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
◆“>”开始的单行加分行的序列字符串,中间不允许空行
2)Bare Sequence
1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn
61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek
121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels
181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp
◆也可以是GBFF格式中的序列数据,即可以带数字和空格,但序列中间也不允许空行。
3)Identifiers
包括检索号,带版本号的检索号以及gi号都是允许的,但是格式有要求,下面是几种错误的格式ACCESSION P01013 ACCESSION不能出现
AAA68881. 1 版本号之前不能有空格
gi| 129295 “| ”与数字之间不能有空格
5、BLAST比对结果报告中的统计数值E值有何意义?
◆BLAST中一般用一个E值(Expectation value)来表示比对的显著性。
◆E值表示如果数据库是随机序列,那么得到同样的比对结果的序列的频率。
这个值越小越好,说明越有生物学意义。
6、什么是PSI-BLAST?它的显著特点是什么?
◆寻找远缘相关的蛋白质:位点特异性反复比对(PSI-BLAST)
前提:
◆很多同源的蛋白质都只含有有限的相似序列。
这些蛋白质可能具有一种三维结构,但是如果进行序列比对,它们可能没有明显的相似性。
◆可以通过打分矩阵的改变来部分解决这个问题,如PAM250矩阵提供了一个更好的评分系统用来探测远缘相关的蛋白质。
尽管如此,数据库中的很多蛋白质由于相关性太小,以致于很难用标准的blastp方法来检测
应对:
psi-BLAST是一种专门化的比对,它往往比常规的比对算法更敏感。
当一个完整的基因组被测序后,往往需要寻找预测蛋白质的同源物。
这时,PSI-BLAST比对就成为适当的选择。
7、什么是PHI-BLAST?CCVSTPAR符合模式[AC]-x-V-x(4)-{GA}吗?
模式识别BLAST(PHI-BLAST)GXW[YF][EA][IVLM]
前提:
很多时候感兴趣的蛋白质有特定的氨基酸残基模式或者“信号”残基,能够用来判断这个蛋白质属于哪个家族。
例如,信号残基可能是一个酶的活性位点,一个蛋白质家族的结构或者功能域的氨基酸序列。
应对:
模式识别BLAST(PHI-BLAST)是一种特殊的BLAST程序,能够让查找得到既和查询序列匹配又和模式匹配的数据库结果
Pattern examples
[AC]:A或C x :任意(4):重复4次{GA}:排除
PA [AC]-x-V-x(4)-{GA}.
This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}
PA <A-x-[ST](2)-x(0,1)-V.
This pattern, which must be in the N-terminal of the sequence ('<'), is translated as: Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-Val
第五章
1、什么是多序列比对?多序列比对的三个步骤是什么?
多序列比对(multiple sequence alignment):把2条以上的序列(相似度不一定很高)进行比对的方法
步骤:
(1)两两进行双重比对。
(2)生成一系统树图(dendrogram),将序列按相似性大致地分组。
(3)使用系统树图作为引导,产生出最终的多序列比对结果。
2、clustal omega是什么软件?
多序列比对软件
3、现代系统发生学研究的基础是什么?
4、Cladogram 和Phylogram这两种系统发生树,有什么相同和不同?
Cladogram:只表示亲缘关系而不表明进化时间。
Phylogram:既表示亲缘关系,又表示进化时间。
5、系统发生树是由什么组成的?
◆系统发生树由一系列的节点(nodes)和分支(branches)组成,其中每个节点代表一个分类单元(物种或者序列),而物种之间的连线代表物种之间的进化关系
◆有根树(rooted tree):有一个惟一的根节点,代表所有其他节点的共同祖先,这样的树能够反映进化层次,从根节点经历进化到任何其他节点只有惟一的路径。
无根树(unrooted tree):没有层次结构,无根树只说明了节点之间的关系,没有进化发生方向的信息
6、MEGA是什么软件?No. of differences距离和P距离是什么含义?
构建进化树(MEGA)
No. of differences距离:
No. of differences距离只是简单的表明两段序列中有区别的位点
p距离:
◆p-distance表示有差异的核苷酸位点在序列中所占的比例。
◆将有差异的核苷酸位点数除以经过比对的总位点数就可以得到p-distance。
◆这个模型不对同一位点出现的多重替换做任何的校正,也不理会替换速率差别或者不同位点之间的不同进化速率。
7、用UPGMA算法对具有右图距离的5条序列构建系统进化树。
第六章
1、为什么基因测序要用到拼接?
现有测序技术所能测得的序列长度有限,一般500-1000bp。
而基因组序列长度远大于此,必须经过“打碎—测序—拼接”过程才能测得
2、什么是鸟枪法、杂交测序法?
◆鸟枪法(shotgun method),也称霰弹法。
将DNA分子打碎,得到长度在500-1000bp之间的小片段,对这些片段测序,然后根据他们之间的关系进行拼接,得到最终目标序列
◆杂交测序法(sequencing by hybridization,SBH)
基本原理是:构建基因微阵列(microarray,也称基因芯片,gene chip),让待测序列与其反应,然后由反应获得的信息确定待测序列的局部序列,最后根据这些局部序列重构目标序列。
基因微阵列(microarray,也称基因芯片,gene chip),将高密度DNA片段阵列以一定的排列方式使其附着在基片上而形成。
3、什么是基因识别?原核基因识别的主要方法有哪两种?真核基因识别的基本思路是什么?基因识别的主要方法是什么?
◆基因识别是识别DNA序列上的具有生物学特征的片段,是基因组研究的基础
◆原核基因识别的主要方法
◆真核基因识别的基本思路:
1)找出基因两端的功能区域:转录启动区、终止区
2)在启动区下游位置寻找翻译起始密码子
3)识别转录剪切位点、剪切给体位点、剪切接受体位点
◆基因识别的主要方法:
两大类识别方法
从头算方法(或基于统计的方法)
根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域
基于同源序列比较的方法
利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。
最理想的方法是综合两大类方法的优点,开发混合算法
4、什么是开放阅读框?
开放阅读框(ORF,open reading frame)是没有终止密码的序列。
5、GENSCAN软件基因识别的结果中,type、s、Initial exon、Internal exon、Terminal exon,Promoter
各是什么意思?
Initial exon:初始外显子Internal exon:内部外显子Terminal exon:终端外显子Single-exon gene:单外显子基因
Promoter:启动子
Poly-A signal:Poly-A点
6、基因组测序中获得以下四条打散的序列,请用求最大权的哈密顿路径的方法求出拼接后的原序列,要求画出具体过程:
AGGTCC、TAAA、AGG、TCCTAAA
第七章
1、Compute pI/Mw 、ProtParam tool 、AACompIdent tool 、SignalP 、TMpred 这些软件,各自是进行什么类型的蛋白质分析的软件?
Compute pI/Mw:pI:等电位点,Mw:分子量
ProtParam tool:理化性质预测软件
AACompIdent tool:蛋白质鉴定软件AAComIdent是通过氨基酸组成来鉴定未知蛋白质的工具SignalP:信号肽预测工具
TMpred:跨模结构分析TMpred程序预测跨膜区和它们的方向。
该算法是基于对TMbase 的统计分析,TMbase是一个自然发生的跨膜蛋白数据库。
作出的预测是通过几个权重计分矩阵的结合得到的。
延伸:
COILS:卷曲螺旋预测
NetNglyc:糖基化位点预测
2、Compute pI/Mw 、ProtParam tool 可预测蛋白质的哪些参数?
Compute pI/Mw:pI:等电位点,Mw:分子量
ProtParam tool:molecular weight, theoretical pI, amino acid composition, atomic composition, extinction coefficient, estimated half-life, instability index, aliphatic index and grand average of hydropathicity (GRAVY)
分子量、等电位点、氨基酸组成、原子组成、消光系数、估计半衰期、不稳定指数、脂肪指数、总平均亲水性
3、TMpred 的算法原理是什么?
4、蛋白质二级结构预测的方法有几类?各是什么?具体方法有哪些?
预测主要有两大类方法:
(1)理论分析方法
通过理论计算(如分子力学、分子动力学计算)进行结构预测。
(2)统计的方法(模式识别或模式分类)
对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。
5、倾向性因子的计算公式是什么?
Pi = Ai / Ti (i= ,β,c, t)
式中下标i表示构象态:如螺旋、β折叠、无规卷曲、转角等;
Ti是所有被统计残基处于构象态i的比例;
Ai是A残基处于构象态i 的比例;
Pi大于1.0表示该残基倾向于形成二级结构构象i,小于1.0则表示倾向于形成其它构象
6、Chou-Fasman方法预测螺旋、β折叠的规则是什么?
通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构
7、NCBI中用来观察蛋白质三维结构的软件是什么?用于结构比对的软件是什么?
Cn3D
延伸:
二级结构预测软件:CFSSP。