《生物信息学》复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《生物信息学》先锋版中译本第二版科学出版社
打分政策:60% 期末考试(70%掌握内容、25% 熟悉内容、5% 理解内容)(请注意红体与黑体字)
A: 生物信息学概述
1. 生物信息学:生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
数据库
生物信息学主要由三大部分组成算法与统计工具
分析与解释
测序策略:逐个克隆法、全基因组鸟枪法
计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。
生物信息学课程范围:使初学者理解生物信息学的基本原理,并获得相应的应用能力。具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。
2. 生物信息学实例:
——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …
——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign
——基因搜索Genscan, GenomeScan, GeneMark, GRAIL
——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom,
——基因调控元件的计算机模式识别Gibbs Sampler, AlignACE, MEME
——蛋白折叠预测PredictProtein, SwissModeler
生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站
3. 五个必须知道的生物信息学网站:(详细参考书本p9)
NCBI (The National Center for Biotechnology Information)/
EBI (The European Bioinformatics Institute)/
The Canadian Bioinformatics Resource http://www.cbr.nrc.ca/
SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.ca/sprot/
PDB (The Protein Databank)/PDB/
B: 数据采集
一、DNA, RNA 和蛋白质测序
1. DNA 测序原理:
DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来
产生有特定终止碱基的嵌套DNA片段。共有4种反应,每种代表DNA 4个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA片段通过聚丙烯酰胺凝胶电泳(PAGE)分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。
2. DNA 序列类型:
DNA序列来源主要有3种方式。基因组DNA直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA包含内含子;cDNA由mRNA反转录而来,并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组DNA来自实验室,包含克隆载体等人工
DNA分子。
3. 基因组测序策略:
一次读段(one read)只能用于短的DNA分子(约800bp)测序,所以大的DNA分子,如基因组,必须首先将其打碎成片段。基因组测序可以分为两种方式:霰弹法测序(shot-gun sequencing)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序(clone contig sequencing)包括亚克隆系统的产生及其测序。
4. 序列质量控制:
通过在DNA双链上进行多次读段完成高质量序列数据的测定。可使用如Phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。载体序列和重复的DNA片段被屏蔽后,使用Phrap程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工校对解决。
5. 单遍(Single-pass)测序:
低质量的序列数据可以由单次读段产生(单遍测序,single-pass sequencing)。尽管不很准确,但单遍序列如ESTs和GSSs,可以以低廉的价格快速大量地产生。
6. RNA 测序:
大部分RNA序列可以从相应的DNA序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱
7. 蛋白质测序:
目前,大部分蛋白质测序是通过质谱(MS)技术进行的,应用这一技术可以通过测量真空中离子的分子质量/电荷比来计算精确的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。
二、蛋白质结构的确定
1. X-ray 衍射晶体学:
X衍射晶体学是一种通过精确定向的蛋白质晶体的X射线衍射模式来确定蛋白质结构的方法。这种方法中,X射线因晶体中原子的电子密度和空间方向的不同而发生散射,可用傅立叶变换的数学方法从衍射数据中重构电子密度图,以建立结构模型。
2. 核磁共振谱:
NMR是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的磁状态间转换。吸收光谱的性质受原子类型及其周围化学性质影响,所以NMR spectroscopy 可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性蛋白的分析。3. 其他方法:
对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X射线纤维衍射、电子显微镜和CD光谱(circular dichroism spectroscopy) 。
C:数据库——内容、结构和注释
一、文件格式
1. 三种常用序列格式:
常用核酸和蛋白序列格式:①NBRF/PIR格式文件名后缀为:.pir o或.seq
②FASTA格式文件名后缀为:.fasta
③GDE格式文件名后缀为gde