比较基因组学与分子进化复习题

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

比较基因组学与分子进化复习题
1．比较基因组学及分子进化的产生背景及其应用，请举例说明如何理解其意义？
产生背景:随着1990年人类基因组计划(Human Genome Project，HGP)的实施并取得巨大成就，同时模式生物(model organisms)基因组计划也在进行，并先后完成了几个物种的序列分析，研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。

在HGP进行中完成一系列模式生物全基因组测定，如大肠杆菌、酵母、线虫、果蝇、小鼠。

这些模式生物全基因组测定的完成有重大理论与现实意义。

至此基因组的研究进入了后基因组时代（post genome era）。

它的研究内容可以概括为：比较基因组学、功能基因组学、蛋白质组学、转录物组学、代谢物组学等，是在全基因组水平上研究基因功能和基因之间互相作用及其调控机制的学科。

随着公共资源数据体系的大规模建立，面对海量数据，如何从这些数据中获得自己想要的知识，搜集、管理、处理、分析、释读能力的要求迅速提升，比较基因组学和分子进化已经成为生命科学研究的核心和不可分割的学科。

应用：比较基因组学能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。

远缘基因组间的比较为认识生物学机制的普遍性，寻找研究复杂生理和病理过程所需的实验模型提供了理论依据，而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。

比较基因组学与分子进化拓展了模式生物从测序的意义，不仅可以模式生物基因组研究模式生物本身，更重要的是利用模式生物研究进化上相近的其他物种；推动了物种起源和生物进化研究的发展；同时带来了研究方法的思路的突破，促进了反向遗传学等学科的发展。

举例：两种血吸虫完整基因组序列被确定
两个国际联合课题组报告了曼氏血吸虫和日本血吸虫的完整基因组序列。

它们是引起血吸虫病（也称“裂体血吸虫病”）的三种主要病原体中的两种。

血吸虫病是一种“被忽视的”热带疾病，影响76个国家的超过2亿人。

对基因组序列的解析不仅能够在遗传学水平上揭示虫体的活动规律，而且还将有利于发现新的药物作用靶位和疫苗抗原，通过对曼氏血吸虫和日本血吸虫的基因转录谱和蛋白质表达谱的研究，已发现了一些血吸虫与宿主相互作用的重要分子。

对新的基因组序列所作的分析，为了解这些病原体的分子结构和宿主互动方式以及未来开发该疾病定向干涉疗法的途径提供了线索。

这两种血吸虫的基因组是首次被测序的两种扁形虫基因组，所以它们为了解动物演化中的早期事件、尤其是身体模式的确定及组织发育成器官的过程提供了新视角。

2．目前国际上主要生物信息数据库资源包括那些？其作用是什么？在NCBI数据库中BLAST的含义是什么，如何评价其结果的可靠性？Blastp 、Blastn 、blastx 、Tblastn 和Tblastx 分别能够完成那些研究工作，请举例说明？
（1）主要生物信息数据库及其作用：
①核算序列数据库：
NCBI：国家生物技术信息中心(National Center for Biotechnology Information, 简称NCBI) 是美国国家医学图书馆(NLM)的一部分(该图书馆是美国国家卫生研究所的一部分)。

涵盖了几乎目前研究得到的所有蛋白质、核酸序列、基因和蛋白质结构与功能的信息，并提供多种软件工具和检索系统。

EMBL：EMBL - European Bioinformatics Institute欧洲生物信息研究所。

为科学界提供免费生物信息资源、促进基础研究、提供培训和传播行业尖端技术。

管理和维护着多个大型生物信息公共数据库，跨基因组学，蛋白质组学，化学信息学，转录组学，系统生物学等，同时创建了多种工具供让研究人员分析和分享信息。

DDBJ：DDBJ(DNA Data Bank of Japan) 日本DNA数据库。

DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列。

与NCBI的GenBank，EBI的EMBL数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

②蛋白质序列数据库：
UniProt：Universal Protein是信息最丰富、资源最广的蛋白质数据库。

它由整合Swiss-Prot、TrEMBL 和PIR-PSD 三大数据库的数据而成。

他的数据主要来自于基因组测序项目完成后，后续获得的蛋白质序列。

它包含了大量来自文献的蛋白质的生物功能的信息。

PIR：PIR数据库按照数据的性质和注释层次分四个不同部分，分别为PIR1、PIR2、PIR3和PIR4。

PIR1中的序列已经验证，注释最为详尽；PIR2中包含尚未确定的冗余序列；PIR3中的序列尚未加以检验，也未加注释; 而PIR4中则包括了其它各种渠道获得的序列，既未验证，也无注释。

SwissProt：该数据库由瑞士日内瓦大学于1986年创建，目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics，简称SIB)和欧洲生物信息学研究所EBI共同维护和管理。

瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,，简称ExPASy)的Web服务器除了开发和维护SwissProt 数据库外，也是国际上蛋白质组和蛋白质分子模型研究的中心，为用户提供大量蛋白质信息资源。

TrEMBL：蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。

”。

该数据库采用SwissProt数据库格式，包含EMBL数据库中所有编码序列的翻译。

TrEMBL数据库分两部分，SP-TrEMBL 和REM-TrEMBL。

SP-TrEMBL中的条目最终将归并到SwissProt数据库中。

而Rem-TrEMBL则包括其它剩余序列，包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。

（2）BLAST的含义及如何评价其结果的可靠性：
BLAST (Basic Local Alignment Search Tool)是NCBI推出的对蛋白质数据库或DNA数据库进行相似性
比较分析的工具。

BLAST 采用一种局部的算法获得具有相似性的序列，其结果中的得分是一种对相似性的统计说明，得分高的两个序列相似性比较高。

BLAST可以对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。

BLAST还能发现具有缺口的能比对上的序列。

其结果的可靠性通过比对给出的相似百分比计算得出一个E-value，百分比越高，E-value越低，可靠性就越高。

（3）Blastp 、Blastn 、blastx 、Tblastn 和Tblastx 分别能够完成的研究工作：
①Blastp：蛋白质序列类似性对比程序。

②Blastn：核酸序列类似性对比程序。

③Blastx：将核酸序列按可读框架(ORF)翻译成蛋白质序列,再与蛋白质序列数据库进行对比。

④Tblastn：将蛋白质序列与按可读框架翻译的核酸序列数据库进行对比。

⑤Tblastx：将核酸序列的可读框架翻译成的蛋白质序列与核酸序列数据库的可读框架翻译成的蛋白质
序列进行对比。

3．通过什么方法可以推断不同生物、或者同源基因在不同生物中进化关系以及在现代分子生物学发展中所起的作用，请举例说明如何依赖于核酸、蛋白质序列信息构建系统进化树？
（1）通过多序列比对进而构建系统进化树的方法可以推断不同生物或者同源基因在不同生物中的进化关系。

多序列比对的目标是发现多条序列的共性，用于研究分子结构、功能及进化关系。

在生物学研究中，对于一系列同源蛋白质，人们往往希望研究隐含在蛋白质序列中的系统发育的关系，这时只有在多序列比对之后，才能发现与结构或功能相关的保守序列片段，通过构建系统进化树才能更好地理解这些蛋白质的进化。

（2）以斑头雁血红蛋白为例。

从Swiss-prot 中找到斑头雁血红蛋白的蛋白序列，找到与斑头雁血红蛋白α链有90%相似性的蛋白序列，将上述序列用最大简约法进行多序列比对并构建系统发育树
（与斑头雁血红蛋白α链有90%相似性的16 条蛋白序列的系统发育树）
4．基于模式植物的基因组信息，如果研究模式生物的一个基因功能主要有哪些途径？请具体举例说明其中的至少一个途径（主要包括序列获得、功能预测和生物学功能验证）？
答：目前基因功能研究方法主要有：
①基因转导技术：将目的基因转导入某一细胞中,通过观察细胞生物学行为的变化来认识基因的
功能,是目前应用最多、技术最成熟的基因功能研究方法。

由于基因表达受转导效率和是否持续稳定表达两方面因素影响,因此需慎重选择转导系统，常用的基因转导系统分为非病毒性表达系统和病毒性表达系统。

②反义技术：根据碱基互补原理,利用人工或生物合成的特异互补的DNA 或RNA 片段(或其修
饰产物) 抑制或封闭目的基因的表达。

包括反义寡核苷酸技术、反义RNA 技术和核酶( Ri2bozyme) 技术。

③基因剔除和转基因技术：利用基因剔除(Gene knockout) 技术或转基因技术获得的模式生物
可能是目前研究基因功能最具价值的手段。

④人工染色体的转导：转基因技术是蛋白功能分析和基因表达调控的有力手段,但使用小的质
粒重组体存在表达水平低、缺乏组织特异性等缺点, 而将大的DNA 片段克隆入酵母人工染色体
(YACs) 、细菌人工染色体中可产生较好的表达水平和组织特异性,并可精确地调节同源重组。

⑤RNAi：所有有机物都含有限制异常或外源基因表达的保护机制。

随着转基因技术的广泛应用,
发现转入的基因可被机体当作外源遗传物质。

⑥基因表达分析：检测某种基因在不同组织或细胞中的表达差异。

如荧光实时定量PCR技术。

⑦微阵列分析：大规模快速检测基因差异表达、基因组表达谱、DNA序列多态性、致病基因或
疾病相关基因功能的研究。

例如T细胞受体基因的转导：T细胞识别抗原的特异性主要由T细胞受体（TCR）决定的，通过转导某些疾病相关抗原反应性T细胞克隆的TCR基因，使人外周血淋巴细胞具有针对其相关抗原的靶向性，在许多疾病治疗方面取得了一定的成效，如TCR基因转导为肿瘤的过继免疫治疗提供了新途径。

基因导入后再回输体内，已用于基因治疗。

5．如果针对没有测序的非模式生物，你如何研究其一个同源基因的功能，请举例说明？
首先找出模式生物种与非模式生物功能相同的基因，由于模式生物的基因都知道就可以利用模式生物基因中的保守序列设计探针从非模式生物中扩增基因片段，然后经过筛库、RACE、测序、功能验证等等一系列步骤就得到了非模式生物基因。

例如要研究小麦上某个与拟南芥同源的基因：
①先获取你所感兴趣的某个拟南芥的基因序列。

②用获取的序列在NCBI上blast 小麦的EST（表达序列标签对应着cDNA的一部分）序列。

③然后将得到的所有EST序列拼接到一块（这些EST序列有overlap,是可以拼接到一块的，如
果NCBI中有关该基因的EST信息不多，可能就拼接不起来或者获取不了全长的cDNA），
以上的步骤是获取小麦中对应的基因（其实直接拼出来的是外显子的序列，可以在其两端设计引物，顺利的话就可以拿到小麦中对应的基因）。

④获取基因后就可以进行功能验证（1.EMS诱变（非定向），筛选突变体。

2.构建RNAi载体，
进行基因沉默分析。

3.构建含有该基因的载体，超标达研究。

4.利用TILLING、CRISPR/Cas system等研究基因）。

6．如何判断利用基因芯片或蛋白组学方法和技术手段解决你所关注的科学问题，请举例说明？
（1）蛋白质组学的主要研究方法有一下几点：1、基于二维电泳-质谱技术的蛋白质组研究2、基于质谱技术的蛋白质组研究，包括液相电泳-质谱技术、液相色谱-质联用技术、Shotgun质谱技术、ICAT技术
3、蛋白质芯片
蛋白质组分析的基本流程：样品制备---蛋白质分离---蛋白质鉴定，具体步骤大致如下：
首先从蛋白质混合物中分离出目的蛋白或者通过消化作用获得肽混合物，再进一步将所得蛋白质与肽混合物分离消化为肽，然后通过MS分析获得相关数据，最后通过数据库检索算法等将其鉴定出来。

（2）基因芯片(Gene chip)技术：指通过微阵列(Microarray)技术将高密度DNA片段阵列通过高速机器人或原位合成方式以一定的顺序或排列方式使其附着在如玻璃片等固相表面，以荧光标记的DNA探针，借助碱基互补杂交原理，通过检测杂交信号的强弱进而判断样品中靶分子的数量，从而进行大量的基因表达以及突变和多态性存在与否的研究。

利用基因芯片进行科学研究的主要流程为：1、设计正确的试验；2、制备样品（mRNA或总RNA样品，包括实验组和对照组）；3、制备芯片（包括PCR、纯化、点样等步骤）；4、进行芯片杂交（即将mRNA或总RNA反转录生成cDNA，并分别对其进行标记）；5、芯片扫描（即采用机关扫描仪，分别用532nm和635nm波长进行扫描，对于每张芯片将得到两张CY3和CY5通道图像）。

6、进行后续的图像处理，数据校正和筛选以及差异性表达基因的确定等；7、最后进行生物信息学分析。

基因芯片的应用：¡基因表达检测（. 特异性相关的基因：差异表达的基因. 基因功能研究. 健康状况的检测. 毒理学研究. 药物作用机制的研究）¡定位克隆¡基因突变和多态性检测¡确定重叠群克隆的排序生物芯片的优点：1）高通量性：可同时并行分析成千上万种分子。

节省时间。

2）微型化，实验所需试剂用量少3）高度自动化4）大规模，高度平行性，快速高效，高灵敏度缺点：在同一温度下杂交，不同探针杂交效率不同。

7.如何将正向遗传与反向遗传应用到基因功能的研究中，以及相关的研究手段为何？
传统的遗传学手段大致可以分为“正向遗传学”（forward genetics）和“反向遗传学”（reverse genetics）两类。

正向遗传学是指，通过生物个体或细胞的基因组的自发突变或人工诱变，寻找相关的表型或性状改变，然后从这些特定性状变化的个体或细胞中找到对应的突变基因，并揭示其功能。

例如遗传病基因的克隆。

反向遗传学的原理正好相反，人们首先是改变某个特定的基因或蛋白质，然后再去寻找有关的表型变
化。

例如基因剔除技术或转基因研究。

简单地说，正向遗传学是从表型变化研究基因变化，反向遗传学则是从基因变化研究表型变化。

反向遗传学的相关技术主要有：1、基因的同源重组；2、基因的位点突变；3、基因沉默等。

比如通过基因敲除的方法对目的基因进行功能研究；或者通过反义RNA与RNA干扰技术等对转录水平及转录后水平的基因沉默对相关RNA进行研究。

从而利用这些手段对各种复杂的疾病进行治疗等。

7.蛋白质组学与基因组学的比较
基因组是生物体内遗传信息的集合，是某个特定物种细胞内全部DNA分子的总和（细胞内细胞器的DNA 属于该细胞器的基因组）。

基因组学（genomics）是指研究并解析生物体整个基因组的所有遗传信息的学科。

比较基因组学（Comparative genomics）的威力在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。

1. 对于单细胞或多细胞生物来说，同一个个体的基因组不论是在不同的发育阶段或不同种类的细胞里都是同样的。

对于蛋白质组而言，不同类型的细胞或同一个细胞在不同的活动状态下，蛋白质组的构成是不一样的。

2.对于基因组研究而言，要测定的基因组不论大小，其核苷酸的数量是明确的。

对于蛋白质组来说，蛋白质的种类究竟有多少就很难说了。

3.一个个体的基因组从个体诞生到死亡，始终保持不变。

而作为新陈代谢的主要执行者的蛋白质组，在个体的生命活动中却总是变动不停的。

4.DNA通常在细胞核内，且保持稳定, 测定基因组的DNA序列不受时空的影响,对于转录的mRNA而言,时间是主要的参考因素,在发育的不同阶段或细胞的不同时期,mRNA的表达是不一样的。

蛋白质组的研究中，不仅要考虑时间的影响，更要考虑空间的影响。

首先，不同的蛋白质分布在细胞的不同部位。

其次，许多蛋白质在细胞里不是静止不动的，它们在细胞里常常通过在不同的亚细胞环境里的运动发挥作用.
5.基因组的基因表达的各种mRNA是彼此孤立的，互不干扰。

mRNA的产物——蛋白质正好相反，它们彼此间存在着广泛的相互作用。

不存在不与其他蛋白质相互作用的“孤立蛋白质”。

蛋白质功能的实现离不开蛋白质与蛋白质或蛋白质与其他生物大分子之间的相互作用。

6.在基因组的研究中，DNA测序技术是一个最基本和最主要的工具。

这是因为，基因组的均一性和简单性，使得一种单一的技术就能胜任基因组研究任务。

但是，在蛋白质组研究中，所需要的技术就远远不止一种，而且技术的难度也远远大于基因组研究技术。

如蛋白质组的分离技术和鉴定技术等。

8.比较基因组学方法对进化生物学的新贡献
1.近年来,比较基因组学在"后基因组时代"作为一门重要的工具学科孕育而生,它的每一点进步都常常受到生命科学界的瞩目
2.到目前为止,科学家已经绘制出人类,小鼠,狗,蜜蜂和果蝇等动物和昆虫的基因图谱,对紫海胆,大鼠,黑猩猩和牛等正在进行测序.对比不同物种的基因组,将有助于研究生物进化过程,辨别基因并分析其功能,了解人类发育和疾病的机理。

.3.值得一提的是,生命类型的演化,生物进化的历程,生物进化的机制,生物与环境等生物学理论是比较基因组学创立与发展的基石,比较基因组学是生物学在分子水平的深入和扩展.也就是说,没有生物学的过去就没有比较基因组学的今天.
4. 因此,让学生了解比较基因组学的基本知识,关注其进展,从而站在生命科学研究的前沿,再次审视比较基因组学的重要性,
5.比较基因组学的创立具体到人类基因组计划的任务,比较基因组学就是系统比较人类与其他生物在全基因组水平所有基因分布的异同和相互关系,从而深入探讨自然史中生物的演化过程与亲缘关系,基因在演化过程中的功能转变,生物多样性产生的机制, 以及人类基因来源和生理功能等一系列重大医学遗传学问题.
6.从生物学角度来看,人类和其他生物被划分在不同的种属,但以现代进化论的观点来看,任何生物都与人类有着一定的亲缘关系比如人类与草履虫的亲缘关系大约是13亿年亿年,与猴子亲缘关系是400万年.
7.大肠杆菌,酵母,线虫,果蝇和小鼠被初选为人类的首批五种"模式生物".利用模式生物在进化上与人类的亲缘关系,比较它们与人类基因组间的相似与相异,是当前比较基因组学研究的主要内容.在某种意义上讲,整个生物的进化史都刻写在人类基因组这本"天书"之中.
8.开展比较基因组学研究,通过对比人类与其他生物基因组间的异同,就能清楚地看到人类基因组与环境相互作用进而适应性变异的进化脉络,了解人类与其他生物器官结构与功能异同的分子基础,
10.系统生物学
1.系统生物学将在基因组序列的基础上完成由生命密码到生命过程的研究。

由生物体内各种分子的鉴别及其相互作用的研究到途径、网络、模块，最终完成整个生命活动的路线图
2.系统生物学是在细胞、组织、器官和生物体整体水平研究结构和功能各异的各种分子及其相互作用，并通过计算生物学来定量描述和预测生物功能、表型和行为。

3.建立多层次的组学技术平台，研究和鉴别生物体内所有分子，研究其功能和相互作用，在各种技术平台产生的大量数据的基础上，通过计算生物学用数学语言定量描述和预测生物学功能和生物体表型和行为。

11.《Science》选出的2014年最重要科学突破
1.The birth of birds从恐龙到鸟的转变:将早期鸟类和恐龙化石与现代鸟类进行比较的一系列文章揭示了某些恐龙世系是如何发育成小型、体重轻盈的形态学构造的，这让它们能够演化成许多类型的鸟类并在大约6600万年前的白垩纪—古近纪物种灭绝中存活下来
2.Young blood fixes old 年轻者的血液修复年迈者的健康问题来自年轻小鼠的血液——甚或只是来自年轻小鼠血液中的一个叫做GDF11的因子——能够让较老迈的小鼠的肌肉和大脑“返老还童”。

如此研究成果引导人们开始了用年轻志愿者血浆帮助老年痴呆症患者恢复健康的临床试验.
3.Robots that cooperate让机器人合作新的软件和互动机器人正向人们证明，机器人终于能在无需人监督的情况下一同工作；例如，指示成群的受到白蚁启发的机器人来构建一种简单的结构，或提示一千个25美分硬币
大小的机器人形成方块、字母及其他二维形状等
.4.Chips that mimic the brain 神经形态芯片通过模仿人类大脑结构，IBM电脑工程师首次推出了大规模的“神经形态”芯片，它们被设计成用更接近活体大脑的方式来处理信息。

5.Cells that might cure diabetes β细胞两个不同的研究小组开创了两种不同的方法在实验室中生长酷似β细胞的细胞，这给了研究人员前所未有的研究糖尿病的机会；β细胞是胰脏中产生胰岛素的细胞。

6. Europe‘s cave art has a rival 印度尼西亚的洞穴艺术印度尼西亚某洞穴中的手模印和动物绘画——曾被认为有1万年之久——实际上其年代在3万5千年至4万年前。

这些发现表明，人类在亚洲制作的象征性艺术与最早的欧洲洞穴画家的作品一样早
7.Manipulating memories 操纵记忆研究人员用光遗传学技术显示，他们能在小鼠中操纵特定的记忆；光遗传学是一种用光束来操纵神经元活动的技术。

删除现有的记忆并植入虚假的记忆，他们能将某小鼠记忆的情绪内容从好转成坏，反之亦可。

8.Rise of the CubeSat 方块卫星尽管这些卫星在10多年前就被发射进入太空，如今这些各面面积只有10平方厘米的被称作方块卫星（CubeSats）的廉价人造卫星在2014年才真正获得成功。

据研究人员披露，这些曾被认为是大学生教学工具的微型卫星已经开始从事进行一些真正的科学工作
9.Giving life a bigger genetic alphabet 扩展遗传密码研究人员设计制造了一种大肠杆菌，它除了有正常的G、T、C和A等核酸外还含有另外两种核酸——X和Y；G、T、C和A是组成DNA的标准构建要素。

这种合成细菌无法在实验室外繁殖，但它们可被用来制造具有“非自然”氨基酸的设计蛋白。

12.生物信息学研究内容
（1）各种生物数据库的建立和管理。

这是一切生物信息学工作的基础，通常要有计算机科学背景的专业人员与生物学家密切合作。

（2）数据库接口和检索工具的研制。

数据库的内容来自万千生物学者的日积月累，最终又为生物学者们所用。

但不能要求一般生物学工作者具有高深的计算机和网络知识，因此，必须发展查询数据库和向库里提供数据的方便接口。

这是专业人员才能胜任的工作，通常在生物信息中心里进行。

（3）人类基因组计划的实施，配合大规模的DNA自动测序，对信息的采集和处理提出了空前的要求。

从各种图谱的分析，大量序列片段的拼接组装，寻找基因和预测结构与功能，到数据和研究结果的视像化，无不需要高效率的算法和程序。

研究新算法、发展方便适用的程序，是生物信息学的日常任务。

（4）生物信息学最重要的任务，是从海量数据中提取新知识。

这首先是从DNA序列中识别编码蛋白质的基因，以及调控基因表达的各种信号。

其次，从基因组编码序列翻译出的蛋白质序列的数目急剧增加，根本不可能用实验方法一一确定它们的结构和功能。

从已经积累的数据和知识出发，预测蛋白质的
结构和功能，成为常规的研究任务。

（5）DNA芯片和微阵列的发展，把一定组织或生物体内万千基因时空表达的研究提上日程．研究基因表达。