生物信息学期末复习知识点总结

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学：利用数学、物理、化学的理论、技术和方法，以计算机为工具，对生命现象加以研究，得到深层次的生物学知识。

研究任务：收集与管理生物分子数据，对数据进行处理分析，为其它生物学研究提供服务

四大“模式生物”：酵母、线虫、果蝇、小鼠

糖的生物功能，作为燃料（是生命活动所需的能源），重要的中间代谢物，参与生物大分子组成，作为信号分子

脂类的生物功能，构成生物膜的骨架，储存能量（效率是糖的2倍左右），构成生物表面的保护层、保温层，重要的生物学活性物质蛋白质的生物功能，是遗传信息转化成生物结构和功能的表达者；参与基因表达的调节，以及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程；酶（一类重要的蛋白质）在细胞和生物体内各种生化反应中起催化作用；

蛋白质的空间结构

一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序

二级结构(secondary structure)氢键形成?-螺旋(? -helix)链间形成?-折叠(?-sheet)

三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构

四级结构(quaternary structure)具有特定构象的肽链进一步结合，并在空间相互作用检索方法：1）追溯法：通过已知文献后附有的参考文献中提供的线索来查找文献。（2）常用法：利用各种检索工具来查找文献。（3）循环法：是将常用法和追溯法交替使用的一种综合文献检索方法。

（4）浏览法：是从本专业期刊或其它类型的原始文献中直接查阅文献资料。

检索途径：着者途径：分类途径：主题途径：其它途径；

检索过程：（1）分析研究课题（2）制定检索策略（3）查找文献线索（4）获得原始文献大规模基因组DNA测序：

鸟枪法（ Shot-gun sequencing）方法：借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序，再根据序列间的重叠关系进行计算机排序与组装，确定它们在基因组中的位置。

适用范围：主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。优点：速度快、简单易行、成本低

克隆重叠群法(clone contig sequencing)方法：先将染色体打成比较大的片段(几十-几百Kb)，利用分子标记将这些大片段排成重叠的克隆群，分别测序后拼装。需要绘制物理图谱，以鸟枪法为基础。适用范围：较大的、更复杂的基因组

蛋白质结构解析：X射线晶体衍射；核磁共振波谱学

其他方法：扫描隧道电子显微镜–圆二色谱一级数据库：直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。

二级数据库：在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。

序列比较的根本任务是：通过比较生物分子序列，发现他们之间的

相似性，找出序列之间共同的区域，同时辨别序列之间的差异。

同源性：是指序列们是由共同祖先进化而来，讲两条序列的同源关系，只有两种情况：同源、不同源。相似性：指序列间的差别，是一个度量。

同源与相似的关系：一般认为序列相似性达到一定程度，即可认为是同源，但不绝对。序列比对算法实现：点阵分析：寻找序列间可能的性状对位排列；寻找蛋白质、DNA序列中正向或反向重复；预测RNA中自补区域；直观，整体水平；动态规划算法：精确而全面，非常耗费资源；启发式算法

滑动窗口技术：使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。

动态规划算法计算过程：1计算过程从d 0 ,

0开始,2 可以是按行计算，每行从左到右，也可以是按列计算，每列从上到下。3当然，任何计算过程，只要满足在计算d i , j 时d i-1 , j 、d i-1 , j-1、和d i, j-1都已经被计算这个条件即可。3在计算 d i , j 后，需要保存d i , j 是从d i-1 , j 、d i-1 , j-1、或d i, j-1中的哪一个推进的，或保存计算的路径，以便于后续处理。上述计算过程到d m , n 结束。

最优路径求解：与计算过程相反，从d m , n 开始，反向前推。

基因的定义1、基因是一段与多肽链或功能RNA 产生有关的DNA 片段，包括编码区前的引导序列、编码区后的尾部序列、编码区内的插入序列和编码区序列。

基因的种类：结构基因、调控基因， rRNA 基因和tRNA 基因启动子，操纵基因

因组（genome ）是指一个细胞或病毒包含的全部遗传信息的总和。 TP （true positive ）：实际编码区的核酸中被成功预测的核酸数目； TN （true negative ）：实际非编码区的核酸中被成功预测的核酸数目； FN （false negative ）：实际编码区的核酸中被误测为非编码的核酸数目； FP （false positive ）：实际非编码区的核酸中被误测为编码的核酸数目。

敏

感性

（sensitivity ，Sn ）：FN TP TP

Sn +=

特异性（specificity ，Sp ）：

FP TP TP Sp +=

FM 法：1.找出关系最近的序列对，如A 和B 2.将剩余的序列作为一个简单复合序列，分别计算A 、B 到所有其他序列的距离的平均值 3.用这些值来计算A 和B 间的距离

4.将A 、B 作为一个单一的复合序列AB ，计

算与每一个其他序列的距离，生成新的距离矩阵

5.确定下一对关系最近的序列，重复前面的步聚计算枝长

7.从每个序列对开始，重复整个过程

8.对每个树计算每对序列间的预测距离，发现与原始数据最符合的树

蛋白质亚细胞定位预测的方法： 1）基于信号肽的方法来预测蛋白质亚细胞定位（2）基于氨基酸组份或氨基酸物理化学性质的方法来预测蛋白质亚细胞定位（3）基于蛋白质功能注解的方法来预测蛋白质亚细胞定位（4）基于系统发生的分布图、结构域投影或结合进化和结构信息的方法来预测蛋白质亚细胞定位

Sn=TP/(TP+FN) 项目

Lengt h T P F

FN Sn Sp acc

ura

ZCURVE_V 12 1

2 0 2 1 Glimmer NCBI

0 4 4 GeneMark

NCBI

9 0 5

核酸数据库：GenBank 、EMBL 、DDBJ

蛋白质序列数据库：SWISS-PROT 、PIR

蛋白质结构数据库：PDB