生物信息学复习提纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息学(4/6)
HGP,类基因组计划(Human Genome Project)
遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。
物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。
转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。
生物信息学:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科
结构生物学是以生物大分子特定空间结构、结构的特定运动与生物学功能的关系为基础,来阐明生命现象及其应用的科学。
系统发生(phylogeny)——是指生物形成或进化的历史
系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;
系统发生树(phylogenetic tree)——表示形式,描述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等等) 之间进化关系(系统发生树: 物种(遗传特征)之间的关系;进化树: 从低等到高等, 有始有终)
EST:大量表达序列标签(Expressed Sequence Tag,EST)
SSR:简单重复序列(SSR,simple sequenee Respts),也称作微卫星DNA (Mierosatellite DNA)是指一类由几个(多为1-6个)碱基组成的基元串联重复而成的DNA序列,在染色体上呈随机分布,由于重复次数不同及重复程度的不完全而造成了每个座位的多态性。
SNP:单核苷酸多态性
PDB:蛋白质数据库(Protein Data Bank,PDB)
▲生物信息学主要研究两种信息载体:DNA分子、蛋白质分子
▲生物信息学研究的内容:
课本上版本PPt简化版本
1.生物信息的收集、储存、管理与提供
2.基因组序列信息的提取和分析
3.功能基因组分析
4.生物分子设计
5.药物设计
6.生物信息分析的技术与方法研究
7.应用于发展研究
8.系统生物学研究1、生物分子数据的收集与管理
2、数据库搜索及序列比较
3、基因组序列分析
4、基因表达数据的分析与处理
5、蛋白质结构预测
▲生物信息学之父:马来西亚的美籍学者林华安(Hwa A. Lim,林博士)
▲生物信息学的热点领域:1.人类基因组计划2.人类蛋白质组计划3.新药开发中的应用 4.基因芯片5.生物信息学与医学
▲生物分子信息的特征:生物分子信息数据量大、生物分子信息复杂、生物分子信息之间存在着密切的联系
▲Linux系统的主要特征:开放性、多用户、多任务。
▲主要数据库有:基因组数据库(EMBL、GenBank、DDBJ)、蛋白质序列数据库(SWISS-PROT、PIR)、蛋白质结构数据库(PDB)
▲目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能
▲蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测是了解蛋白质功能的重要途径
▲蛋白质结构预测分为:二级结构预测、空间结构预测
▲复杂结构分析方法:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法
▲起始密码子:AUG 终止密码子:UAA AUG UGA (与启动子和终止子区别清楚,顺便UTR、ORF、顺式作用元件等基因上的名词也需要明白是什么东西)
▲生物信息学研究的意义:
1)认识生物本质。了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系
2)改变生物学的研究方式。改变传统研究方式,引进现代信息学方法
3)在医学上的重要意义。为疾病的诊断和治疗提供依据;为设计新药提供依据
▲基因组测序的基本策略有哪些?什么叫contig?
逐个克隆法、全基因组鸟枪法、Contig(重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段)
▲什么事件大大促进了生物信息学的发展——人类基因组计划
▲生物信息学中最重要的贡献是什么?
Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献
▲DNA序列分析可大体分为两类:(1)测序DNA序列分析;(2)特定DNA序列分析。后者内容一般包括:DNA碱基组成、密码子偏向性、内部重复序列、酶切位点、编码区分析、二级结构预测等,但不局限于这些内容。(可以回忆下大作业做的时候分析了哪些东西)
▲一般地,单次测序的正确率在500bp左右
▲PCR技术优点:特异、灵敏、产率高、快速、简便、重复性好、易自动化…
▲引物设计原则:1.引物与模板的序列要紧密互补(近延长方向的必须互补)2.引物与引物之间避免形成稳定的二聚体或发夹结构3.引物不能在模板的非目的位点引发DNA聚合反应(即错配)(详细限制性条件见P31)
▲电子克隆基本过程:
1.将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。
2.将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(Contig Analysis)。(如果种子序列不是核酸,则不必拼装新序列)
3.以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。
4.对延伸产物进行ORF分析,确定cDNA的完整性。
▲ORF可靠性验证——Kozak规则:
1)第4位的偏好碱基为G
2)ATG的5’端约15bp范围内的侧翼序列内不含碱基T
3)在第3、6、9位,G为偏好碱基
4)除3、6、9位,在整个侧翼序列区中,C为偏好碱基
(以上条件不需要全部满足,一般满足前两项即可)