生物信息学期末考试重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一讲
生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。
生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。
生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。
生物技术与生物信息学的区别及联系
生物信息学的发展历史
•人类基因组计划(HGP)
•人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿
波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科)
随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。
第二讲回顾细胞结构
细胞是所有生命形式结构和功能的基本单位
细胞组成
细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构
细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器
细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等
细胞核最大的细胞器
DNA的结构
碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G)
核苷酸
核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊
糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就
是A、T、C、G
基因是什么
基因是遗传物质的基本单位
基因就是核苷酸序列。
大部分的基因大约是1000-4000个核苷酸那么长。
基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。
基因在染色体上。
第四讲数据结构及其对应算法
数据结构的定义
数据结构探讨的是在计算机中如何有效地存放数据,使其可以方便地被处理
•二维数组
•链表
•栈和队列
第五讲序列比较
序列比较的根本任务是:
1.发现序列之间的相似性
2.辨别序列之间的差异
目的:
相似序列相似的结构,相似的功能
判别序列之间的同源性
推测序列之间的进化关系
序列对比定义:
序列对比(sequence alignment)是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上提供序列之间的相似性关系及他们的生物学特征。
编辑距离
...AGCACAC--A...
... A--CACACTA...
-Match(a,a)
字符匹配
-Delete(a,-)
从第一条序列删除一个字符,或者在第二条序列相应的位置插入空位
-Replace(a,b)
以第二条序列中的字符b替换第一条序列中的字符a, a不等于b
-Insert(-,b)
在第一条序列插入空位符,或者删除第二条序列中的对应字符b
编辑距离,又称Levenshtein距离,是指在对于两个字符串,由其中一个转换成另一个所需要的最少编辑次数,该编辑可以是Replace, Delete,Insert
Besting -->Beaten
S1. Replace (s -> a )
S2. Replace (i -> e )
S3. Delete (g -> -)
S3. Insert (-,g)
问题:把一个字符串s1最少经过多少步操作变成字符串s2
相关算法
•递归
函数调用自身,需要有边界函数
n! = n(n-1)(n-2)...1;
f(n) = f(n-1)+f(n-2)
•动态规划(最长公共字符子序列)
将大问题分解为一系列子问题,每个子问题的解保存在数组中用来求最终解
[问题描述] 字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。令给定的字符序列X=“x0,x1,…,xm-1”,序列Y=“y0,y1,…,yk-1”是X的子序列,存在X的一个严格递增下标序列
最长公共字符子序列
A=“a0,a1,…,am-1”;B=“b0,b1,…,bm-1”;Z=“z0,z1,…,zk-1”为它们的最长公共子序列,那么关于A,B,Z应该有如下性质:
1)如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,…,zk-2”是“a0,a1,…,am-2”
和“b0,b1,…,bn-2”的一个最长公共子序列;
2)如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-2”
和“b0,b1,…,bn-1”的一个最长公共子序列;
3)如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列。