基因组学作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人类基因组以及多种模式生物、重要生物基因组全序列的完成,标志着生命科学研究进入所谓的“后基因组时代, 即产生了功能基因组学.
功能基因组学包括:转录组学、蛋白质组学、代谢组学、表型组学、相互作用组学等。
蛋白质组学是后基因组学时代研究的中心,而以阐明生物体内蛋白质表达模式与功能模式为目标的蛋白质组学成为功能基因组学研究的重要内容之一。
蛋白质组学是研究蛋白质组或应用大规模蛋白质分离和识别技术研究蛋白质组的一门学科,是对基因组所表达的整套蛋白质的分析。
蛋白质组学可以被广泛定义为生物样本中蛋白质的系统分析与存档,其目的在于归类细胞中的蛋白质的整体分布,鉴定并分析感兴趣的个别蛋白,最终阐明它们的关系与功能。
蛋白质组学的诞生实质上是依赖于基因组测序计划的成功,该计划虽未对揭示生物体的本质提供更多的信息,但是它为更加广泛而有效的实验方法的产生提供了基本的平台,而这些实验方法将为鉴定基因组编码的基因,并最终理解这些基因产物在生命活动中的调控作用提供支撑。
是指“由一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质”。
蛋白质组(Proteome)一词最早由澳大利亚学者Wilkins等于1994年提出,指的是由一个基因组geneome或一个细胞、组织表达的所有protein。
蛋白质组学(proteomics)是在蛋白质水平上定量、动态、整体性地研究生物体。
同基因组学一样,蛋白质组学不是一个封闭的、概念化的、稳定的知识体系,而是一个领域。
它旨在阐明生物体全部蛋白质的表达模式及功能模式,其内容包括蛋白质的定性鉴定、定量检测、细胞内定位、相互作用研究等,最终揭示蛋白质功能,是基因组DNA序列与基因功能之间的桥梁。
蛋白质组与基因组的不同点:
(1)同一性与多样性
▪基因组作为遗传信息的载体,其最主要的特征就是同一性。
同一个个体的基因组不论是在不同的发育阶段或不同种类的细胞里都是同样的。
▪然而,对于蛋白质而言,由于蛋白质是生命活动的主要执行者,因此,对于不同的发育阶段或不同种类的细胞,其蛋白质组的构成是不一样的。
然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。
所以,蛋白质组与基因组的一个重要差别就是蛋白质组具有多样性。
(2)有限与无限
▪对于基因组而言,其核苷酸的数量是明确的。
▪然而,对蛋白质组来说,由于细胞内的大部分蛋白质通常都被进行过翻译后修饰,主要有磷酸化、糖基化、酰基化等。
修饰过的蛋白质具有其
特定的物理化学性质和生物学功能。
▪因此对蛋白质修饰的研究已构成了蛋白质组研究的一个重要部分:修饰蛋白质组学。
如果把一个修饰蛋白视为一种新的蛋白,那么蛋白质组的
蛋白质数量将远远大于相应的基因组的基因数量。
▪从这种意义上说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组的蛋白质种类的确定则是一种“无限”的工作。
(3)静态与动态
▪一个个体的基因组自个体诞生到死亡,始终保持不变。
▪而作为新陈代谢的主要执行者的蛋白质组,在个体的生命活动中却是不停变动的。
蛋白质的差异和变化是生命活动的重要体现方式,发现在正常和病理状态下出现差异的蛋白质常常是认识和防治疾病的关键。
因此现在大多数研究都是针对蛋白质的差异表达谱。
▪蛋白质组动态地反映生物系统所处的状态。
细胞周期的特定时期、分化的不同阶段、对应的生长和营养状况、温度、应激和病理状态等其相应的蛋白质组之间存在差异。
对其中蛋白质合成、降解、加工、修饰的调控过程, 只有通过蛋白质的直接分析才能提示。
(4)时间和空间
▪DNA通常位于细胞核内,且保持稳定,因此测定基因组的DNA序列是不受时空的影响。
▪对于mRNA来说,时间是主要的参考因素,在发育的不同阶段或细胞的不同活动时期,mRNA的表达是不一样的。
因此,在研究转录组或基因芯片时必须考虑到时间,但通常不需要考虑空间的影响。
▪而在蛋白质组的研究中,不仅要考虑时间的因素,更要考虑空间的影响。
首先,不同的蛋白质分布在细胞的不同部位。
它们的功能与其空间定位密切相关。
其次,许多蛋白质在细胞里不是静止不动的。
▪因此蛋白质组学又派生了一个与空间紧密相关的新研究领域—亚细胞器蛋白质组学。
(5)孤立行为与相互作用
Proteome(蛋白质组):由一个细胞或者组织的基因组所表达的全部相应的蛋白质,称为蛋白质组。
▪Proteomics(蛋白质组学):指应用各种技术手段来研究蛋白质组的一门新兴学科,即研究细胞在不同生理或病理条件下蛋白质表达的异同,对
相关蛋白质进行分类和鉴定。
更重要的是蛋白质组学的研究要分析蛋白
质间相互作用和蛋白质的功能.
(6)单一手段与多种技术
论述蛋白质组学与基因组学的区别和联系。
人想象的那样简单。
遗传信息并不直接参与生命活动,而是通过控制蛋白质的形成间接地指导有机体的新陈代谢。
也就是说,一个基因所含的遗传信息,通过一系列复杂的反应,最终导致了相应的蛋白质形成,蛋白质再参与到生命的各种活动中去。
所以,要想真正揭开遗传的奥秘,仅仅了解基因组的碱基排列顺序是很不够的,还必须认识基因的产物——蛋白质。
与基因组研究的战略一样,科学家们已不再局限于对个别蛋白质进行研究,而是对细胞或组织内成千上万的蛋白质同时进行研究,即蛋白质组学(proteomics)。
2001年2月15日,英国《自然》周刊在发布人类基因组框架图时,同期登载了一条关于人类蛋白质组研究组织(Human Proteome Organization,HUPO)成立的消息,标题就叫“现在是蛋白质组了”。
但科学家们也意识到,蛋白质组研究要比基因组研究复杂得多。
剪不断理还乱的“怪圈”
存在于细胞核里的DNA构成了基因组。
基因组作为遗传信息的载体,最根本的特征就是稳定不变。
对单细胞生物而言,不论在什么样的生长条件下,其基因组始终保持不变。
对多细胞生物来说,每一个个体的基因组,在构成个体的不同种类的细胞里都是一样的,知道了个体内某一细胞内的基因组就知道了该个体所有细胞的基因组。
然而对于蛋白质组而言,由于蛋白质是生命活动的主要执行者,不同类型的细胞或同一个细胞在不同的活动状态下,其蛋白质组的蛋白质种类构成却是很不一样的。
所以,蛋白质组与基因组的一个重要差别就是蛋白质组具有多样性。
这种差别要求我们对“蛋白质组”的概念要进行仔细的分析。
目前蛋白质组比较公认的定义是:一个基因组内所有基因表达的全部蛋白质。
这种定义从字面上容易理解,但在实际中却很成问题。
任何一种生物的基因组,都是由不编码蛋白质的核苷酸序列和编码蛋白质的核苷酸序列(基因)所组成。
基因通常只是基因组的一小部分,例如编码人类蛋白质的核苷酸序列大约占人类基因组的2%。
要想从混杂有大量非编码核苷酸序列的基因组中找出基因,如同沙里淘金。
基因组研究的结果表明,一个基因组拥有的“基因”数目是由两部分组成的:通过实验证明确有蛋白质产物的真实基因、根据起始密码和终止密码序列所确定的潜在基因。
生物学家们把这两类基因都称为“开放阅读框”(open reading frame,ORF)。
因此,一个基因组内的基因数目通常是指ORF的数目。
当一个基因组的全序列测定之后,确定其含有的ORF就成为了主要任务,称为基因注释。
目前用于基因注释的方法还有较高的出错率,尤其对于那些存在不连续基因(即在一个基因内插有非编码的核苷酸序列)的复杂基因组,出错的问题更为突出。
此外,这些ORF是否与蛋白质存在一一对应关系也是一个问题。
一方面,人们已经发现有许多“假基
因”(pseudogene)的存在,这些假基因有和真基因相同的ORF,但却从不表达。
另一方面,由于存在RNA水平上遗传信息的加工——mRNA编辑(RNA
editing),以及蛋白质水平上遗传信息的加工——蛋白质剪接(protein splicing),许多蛋白质很难找到直接对应的ORF。
如果我们不能确定基因组的“所有”基因,我们从何知道蛋白质组的“全部”蛋白质?
显然,确定基因数目最可靠的方法是通过研究蛋白质组来进行。
据最新统计,人类基因组拥有的基因数目大约是在3万到4万个之间。
如果能够把人体252种细胞内的全部蛋白质都给鉴定出来,那么我们就有可能真正知道人类基因组的所有基因。
但是这样一来,基因组和蛋白质组形成了“循环定义”:蛋白质组是以基因组拥有的所有基因的表达产物来构成,而所有基因的确定又必须通过蛋白质组来给予肯定。
可见,要找出一个生物体基因组的所有基因和相应的全部蛋白质,是一项非常困难的任务。
没有标尺的度量
不同生物的基因组大小有着很大的差别。
例如芽殖酵母基因组有1200万碱基对,而人类基因组则为32亿碱基对。
基因组不论大小,其核苷酸的数量总是很明确的。
然而,对蛋白质组来说,蛋白质的种类究竟有多少就很难说了。
上面说过,蛋白质组可以被定义为基因组的基因表达的所有蛋白质,但这一定义没有考虑蛋白质的化学修饰。
细胞内的大部分蛋白质通常在合成结束后,都被进行过化学基团的修饰,如磷酸化、糖基化、酰基化等等。
修饰过的蛋白质的物理化学性质和生物学功能,均不同于未修饰的蛋白质。
如果把一个修饰蛋白视为一种新的蛋白质,那么蛋白质组的蛋白质数量,将远远大于相应的基因组的基因数量。
在这个意义上,人们估计人类蛋白质组的蛋白质种类大约在20万到200万之间。
显而易见,蛋白质组蛋白质数量的估计是非常模糊的。
从蛋白质修饰的角度来看,不仅仅是蛋白质种类大大增加,更重要的是,由于不存在度量修饰蛋白质种类的尺度,人们也许永远不能像确定基因组核苷酸序列那样,准确地统计出生物体内蛋白质组的蛋白质总数。
如果说表达产生的蛋白质种类可以根据基因的数目来确定,那么修饰形成的蛋白质种类只有依靠对蛋白质的直接研究来判定。
生命是一个永远处于变化中的开放系统。
既然蛋白质的修饰和生命活动密切相关,因而这种研究是没有止境的。
从这种意义上来说,对基因组核苷酸序列的测定是一种“有限”的工作,而对蛋白质组蛋白质种类的确定则是一种“无限”的工作。
四维尺度下的研究
DNA作为遗传信息的载体,以双螺旋的形式存在于细胞核内,在细胞一代代的繁衍过程中其碱基序列始终保持不变,因此在测定基因组的DNA序列时不需要考虑时空的影响。
而在蛋白质组的研究中,时间和空间的影响都是不可忽略的。
首先,在个体发育的不同阶段或细胞的不同活动时期,细胞内产生的蛋白质种类是不一样的。
此外,不同蛋白质的寿命也不一样。
有些蛋白质在合成后成为细胞的结构成分,相当稳定;而有些蛋白质在产生后被用来
进行某种细胞活动,比如基因转录的调控,工作一旦完成就被迅速降解。
因此,在分析蛋白质组的蛋白质成分时,需要把时间作为一个重要的参数。
对于在不同时间过程中蛋白质组的组成成分的比较分析——差异蛋白质组研究,已成为当前蛋白质组学的主要内容。
蛋白质的另一个重要特征是,不同的蛋白质通常分布在细胞的不同部位,它们的功能与其空间定位密切相关。
要想真正了解蛋白质的功能,通常还需要知道蛋白质所处的空间位置。
更为重要的是,许多蛋白质在细胞里不是静止不动的,它们在细胞里常常通过在不同亚细胞环境里的运动发挥作用。
例如细胞周期的调控过程、细胞的信号转导和转录调控,都依赖于蛋白质空间位置的变化和运动。
因此,蛋白质组学中又派生了一个与空间紧密相关的新研究领域——亚细胞蛋白质组学。
这种亚细胞蛋白质组可能是细胞器蛋白质组,如高尔基体蛋白质组;也可能是比细胞器还要小的组分,如核膜的蛋白质组。
永不孤独
在不了解基因组序列的情况下,人们曾经推测,生命的复杂程度是由基因组的基因数量来决定的。
也就是说,生命的复杂程度越高,其基因组拥有的基因数目越大。
但随着各种生物的基因组全序列的测定,科学家们认识到情况并非如此。
线虫(C. elegans)是一种低等动物,其基因组的基因数为1.9万多个。
而人类基因组框架图的完成表明,人基因组的基因总数仅仅比线虫多1.5万个左右,远不是预期的10万到15万。
刚刚完成的水稻基因组框架图更让人吃惊,其基因总数在4.6万到5.5万之间,比人的基因还要多。
显然,基因数目与生命的复杂程度没有直接的相关。
那么,在生命从简单到复杂,从低级到高级的进化过程中,究竟是什么因子体现了这种变化?
随着功能基因组研究的进展,人们已逐渐意识到,这种因子可能就是不同基因的产物蛋白质之间“排列组合”的复杂程度。
也就是说,原始生命体中蛋白质之间的相互关系比较简单,而高级生命体中蛋白质之间则具有较为复杂的关系网。
蛋白质组具有一个不同于基因组的重要特性,即蛋白质彼此间有着直接的影响。
某一个蛋白质功能的实现,通常离不开它与其他蛋白质之间的相互作用。
也许可以说,不与其他蛋白质发生作用的“孤立蛋白质”根本就不存在。
过去,科学家们因研究手段的限制,只能研究数个蛋白质之间的相互作用,而今天通过蛋白质组学的新方法,可以同时研究成千上万个蛋白质之间的相互作用。
例如,芽殖酵母基因组全部ORF的表达产物——共6000多个多肽,彼此间可能存在的作用情况已进行了分析,从中发现了9百多种可能的相互作用,涉及到1000多个蛋白质。
科学家为这一类型的研究专门发明了一个新的名词——“相互作用组”(interactomes)。
相互作用组研究可以分为两类。
第一类是研究蛋白质相互作用的网络。
细胞内的许多活动如信号转导等,都是通过一个复杂而广泛的蛋白质相互作用网络实现的。
相互作用组的另一类研究是蛋白质复合体组成的分析。
蛋白质复合体通常可以分为两种。
一种是结构型的蛋白质复合体,如核孔复合体,这一类通常比较稳定?鸦另一种则是功能型蛋白质复合体,例如负责转录的转录蛋白复合体、负责DNA复制的复制蛋白复合体等,这类复合体只有在执行功能时才聚合在一起,任务完成后就解离。
当前,相互作用组研究已成为蛋白质组研究领域的一个重要内容。
技术的烦恼
基因组的物质基础是DNA,它由两条螺旋状生物大分子链组成,其中每一条链都由成千上万的核苷酸连接而成,这些核苷酸仅含有四种类型的碱基。
基因组研究的核心任务,就是要测定DNA链上四种碱基的排列顺序。
因此,DNA测序技术是基因组研究中一个最基本和最主要的工具,这样一种单一的技术就能胜任基因组的研究工作。
但是,在蛋白质组研究中,需要的研究技术远远不止一种,并且技术的难度也要大于基因组研究技术。
首先,由于蛋白质是由20种化学性质各异的氨基酸所组成,因此不同蛋白质的物理化学性质差别很大。
例如,有些蛋白质易溶于极性溶剂,有些蛋白质则难溶于极性溶剂;有些蛋白质较稳定,有些蛋白质则易降解。
此外,蛋白质的各种修饰和相互作用更增加了蛋白质的复杂性。
仅仅通过一两种技术,显然不可能完成对蛋白质组内成千上万种不同性质的蛋白质的检测。
其次,不同种类的蛋白质的量在细胞内有着很大的差别。
例如在酵母细胞里,有些细胞周期调控蛋白不到100个分子,而糖基酶则可能有200万个分子。
据估计,蛋白质之间量的差别,竟可达106数量级。
蛋白质组研究的特点是要同时分析各种各样的蛋白质,因此需要排除巨量的蛋白质类型的干扰,把微量的蛋白质类型从蛋白质混合物中鉴定出来。
现有的蛋白质组研究技术,尚不能令人满意地完成这一任务。
简而言之,蛋白质组研究对技术的依赖性和要求远远超过
基因组学
蛋白质组学的研究技术目前还有很多不完善之处,许多新技术正在研发之中。
因此,蛋白质组学的发展是受技术限制的,也是受技术推动的。
如果说未知世界是一个无边无际的海洋,那么我们的知识就是这海洋里一个小小的岛屿。
随着科学的进步,知识的岛屿会不断地扩张。
但我们同时会发现,环绕着知识岛的未知领域也在增长。
我们的研究可以逐渐地扩大人类知识的领地,但永远不能穷尽宇宙的奥秘。
基因组也好,蛋白质组也好,都不会是人类认识生命的终点。
随便找种微生物,写它产某种代谢产物就行了吧。