生物信息学(第二版)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《精要速览系列-先锋版生物信息学(第二版)》
D.R.Westhead,J.H.Parish & R.M.Twyman
科学出版社2004
A生物信息学概述
相关学习网站/inbioinformatics
B数据采集
DNA,RNA和蛋白质测序
1.DNA测序原理
DNA中核苷酸的顺序是通过链式终止测序【也称为脱氧测序(dideoxy sequencing)或以发明人命名的Sanger方法】来确定。
2.DNA序列的类型
基因组DNA,是直接从基因组中得到,包括自然状态的基因
复制DNA(copy DNA, cDNA),通过反转录mRNA得到的
重组DNA,包括载体序列如质粒,修饰过的病毒和在实验室使用的其他遗传元件等
3.基因组测序策略
散弹法测序(shotgun sequence)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组
克隆重叠群测序(clone contig)DNA片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成
4.序列质量控制
通过在DNA双链上进行多次读取完成高质量序列数据的测定
可使用如Phred等程序对最初的跟踪数据(trace data)进行碱基识别和质量判断。
载体序列和重复的DNA片段被屏蔽后,使用Phred等程序将序列拼接成重叠群
(contigs),剩下的不一致部分通过人工修饰解决
5.单遍测序
低质量的序列数据可以由单次读段(read)产生(单遍测序,single-pass sequencing)。
尽管不很准确,但单遍测序如ESTs和GSS s,可以低廉的价格快速大量的产生
6.RNA测序
因为有大量的小核苷酸(minor nucleotide)(化学改变的核苷)存在于转移RNA (tRNA)和核糖体RNA(rRNA)中,所以RNA测序不能像DNA测序那样直接进行。
需要用特殊的方法来识别被改变的核苷,包括生化实验,核磁共振谱(NRM spectroscopy)和质谱(MS)技术
7.蛋白质测序
蛋白质序列可以通过DNA序列推断得到,而RNA测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰(比如剪接或二硫键的形成)
大部分蛋白质测序是通过质谱(MS)技术进行的
基因和蛋白质表达数据
1.全局表达分析
RNA水平的分析中有效的方法是从RNA群体或cDNA文库中,甚至从序列数据库中进行序列采样。一个简单的方法是从cDNA文库中随机挑选5000个克隆进行测序。
含量很多的mRNAs在采样的序列中出现的频率很高,而含量较少的mRNA出现频率则较低,通过这些数据的统计分析可以确定相对的表达水平。
一个更高级的技术是基因表达的连续分析(serial analysis of gene expreaaion, SAGE)该方法使每个cDNA产生很短的序列标签(通常8~15nt),并在测序前把数百个标签连接成连环分子(concatemer)。这样一个测序反应中可搜集到几百条mRNA的丰富信息。每个SAGE标签可以特异性识别一个特定基因,通过对标签计数,可以确定每个基因的相对表达水平。
然而,大部分全局RNA表达数据还需从微阵列实验所测的信号强度中获取。全局蛋白质表达数据主要从双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis, 2D-PAGE)分离,产生点阵的唯一模式(每个点代表一个单独的蛋白质)。
在2D-PAGE实验中,蛋白质表达数据可以通过每个点的信号强度得到,每个二维凝胶上的蛋白信号必须通过质谱(MS)技术来单个注释。
2.DNA微阵列
一个微阵列有一系列的DNA元件(特征),以格子形式排列在载玻片等微型支撑物上,通过与复合RNA探针杂交可同时使很多基因的表达水平可视化。若使用两个不同的荧光标签的探针,可以在同样的阵列上直接测定不同样本的不同基因的表达。
微阵列中主要用到的两个技术:机械点样DNA微阵列(spotted DNA microarray)和寡聚核酸基因芯片(oligonucleotide gene chip)(由美国Affymetrix公司独家制造),后者在制造芯片是通过固态化学合成把寡聚核苷酸印在芯片上。
3.双向蛋白质凝胶
2D-PAG技术的原理是蛋白质可基于两个不同的特性来分离:等电点(isoelectric point)和分子质量(molecular mass)。该技术中,第一方向蛋白沿固相pH梯度(immobilizes pH gradient)等电聚焦(isoelectric focusing)分离;在垂直方向进行分子量的分离。在凝胶染色后,染色斑点(spot)的模式可作为样品中蛋白质的可重复使用的指纹(fringerprint)。通过样本间比较可以识别不同表达的蛋白质,或被药物诱导的蛋白质等。离体的蛋白质斑点(excised spot)可以通过质谱技术鉴定。
蛋白质互作数据
1.蛋白质互作的重要性
蛋白质-蛋白质互作导致瞬时或稳定多亚基复合物(multi-subunit complexes)的形成。了解这些复合物对于注释蛋白质功能是必需,也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质
2.遗传方法
抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用,显性负突变(dominant negative mutation)显示了一种起着多聚复合体作用的蛋白质。
3.亲和性方法
可通过几种利用蛋白质亲和性(特异结合的倾向)分析的物理方法来为蛋白质之间的相互关系提供直接的证据,比如亲和性管柱层析法,免疫共沉淀。由Ciphergen公司使亲和实验格式更趋微型化,使得在蛋白质芯片的发展中达到顶峰。
4.分子和原子的方法
X射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作,其它的蛋白质互作分析的分子方法包括荧光共振能量传递(FRET),表面基元共振谱(SPR)和表面增强激光接吸附/离子化技术(SELDL),其中的很多方法可通过质谱技术直接集成到蛋白质注释中。
5.基于文库的方法
基于文库的蛋白质互作实验有两个主要优点:它是高度并行的实验格式;候选互作蛋白质及其cDNAs之间直接关联。
影响最大的方法是酵母双杂交系统(yeast two-hybrid system,Y2H),在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。
C数据库--内容,结构和注释
已注释的序列数据库
1.初级序列数据库
GenBank(NCBI)、核酸序列数据库(EMBL)和日本的DNA数据库(DDBJ)
2.SWISS-PROT和TrEMBL
SWISS-PROT收集了确认的蛋白质序列及与结构,功能和所属蛋白质家族有关的注释信息。相关数据库TrEMBL翻译了初级核酸数据库中的编码序列。
其他数据库
1.OMIM
OMIM指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。每个OMIM条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。
2.Incyte和UniGene
Incyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。UniGene是一种用来把GenBank序列聚类并与EST数据相关联的实验工具。
3.结构数据库
蛋白质数据库(PDB),核酸数据库(NDB),大分子结构数据库(MSD)
E通过序列相似性标准搜索序列数据库
序列相似性搜索
1.序列联配