生物信息学完整版
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、名词解释
1. 生物信息学:
1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;
2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;
3)目的在于阐明大量生物学数据所包含的生物学意义。
2. BLAST(Basic Local Alignment Search Tool)
直译:基本局部排比搜索工具
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特
定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合
来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其
他任何节点。
11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,
可以在无根树中指派根节点。
12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基
因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法
和数据本身的分析方法。
15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个
预定义的类目中。
16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通
过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定
义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。
18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量
的准确确定成为可能。
19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。
20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致
药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都
有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。
23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、
蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的
全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题
1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE
2. 初级序列数据库:GenBank,EMBL和DDBJ
3. 蛋白质序列数据库:SWISS-PROT和TrEMBL
4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白
质信息资源)
5. 目前由NCBI维护的大型文献资源是PubMed
6. 数据库常用的数据检索工具:Entrez,SRS,DBGET
7. 常用的序列搜索方法:FASTA和BLAST
8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9. 多序列联配的常用软件:Clustal
10. 蛋白质结构域家族的数据库有:Pfam,SMART
11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12. 系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法
13. 常用系统发育分析软件:PHYLIP
14. 检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的
16.检测原核生物ORF的程序:NCBI ORF finder
17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18. 二级结构的三种状态:α螺旋,β折叠和β转角
19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层
和输出层
20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21. 蛋白质质谱数据搜索工具:SEQUEST
22. 分子途径最广泛数据库:KEGG
23.聚类分析方法,分为有监督学习方法,无监督学习方法
24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish
三.问答题
1. FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。
(NBIR/PIR序列格式