基因组学与蛋白质组学复习思考题

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基因组学与蛋白质组学复习思考题

1．基因组计划三步曲：（1）测序－组装－解读遗传信息－提供基因组草图序列/精确序列和释放数据库；（2）基因组作图与整合－精细图谱绘制与图位克隆；（3）基因功能鉴定。简要说明这“三步曲”的主要内容、目的和相互关系？

第一步：1.测序，用链终止法、化学降解法或者自动化测序（应用核苷酸荧光染料标记物或者毛细管电泳提高测序效率和减少误差）的方法获得不同片段的序列数据；2.组装，根据所测得的序列数据的两端序列的重复性，将序列进行拼接（由计算机软件完成），形成基因组序列；3.解读遗传信息和提供基因组草图序列以及精确序列，对组装完成的序列进行解读就是通过软件分析、基因定位、同源性和相似性分析将序列中所有可能含有的基因进行注释和定位，这些基因包括已经在其他物种（与测序的物种的亲缘性无论高低）的基因组中已经被解读了的“已知基因（又叫旧基因）”和在其他物种中还没有被解读的“新基因”，将其标记出来并注释基因的功能、序列和位置等，绘制称为基因组草图，将其上传到NCBI网站上供全世界使用。

第二步：1.基因组作图与整合，采用杂交试验、家系分析构建遗传连锁图谱，利用限制性片段长度多态性和STS（标签位点）作图对基因组的每条染色体的物理图谱进行定位，然后将前两者（遗传连锁图谱和物理图谱）进行整合，随后对整合后获得的图谱进行重新验证以消除误差，最终得到一份精细图谱。2.图位克隆，通过确定和目的基因完全连锁的分子标记，最终确定突变基因的位置和序列的手段。

第三步：基因功能的鉴定，1.对于一个基因，可以先将其序列进行同源性搜索比对，当能够找到与其相似或者相同的序列的已知基因时，就可以初步确定这个基因的功能，只要再做好生物学实验进行验证即可；2.当不能找到序列相似或是相同的序列时，可进行结构域扫描分析，需找超基因家族（指序列没有同源性但是其编码的蛋白质功能相似的不同基因，其蛋白质产物相似的结构域预示着有相同或者相似的功能），然后通过其超基因家族的基因功能预测目标基因的功能，最后通过生物学实验验证。方法是通过基因序列找到其氨基酸序列，用氨基酸序列推测蛋白质结构并确定结构域，再通过结构域的相似性或关键位点的氨基酸序列寻找超基因家族；3.对于以上方法都不能鉴定的基因，可用协同进化的方法进行注释，例如在寻找不同物种间与其同时出现或者同时消失的基因，通过那个基因的功能预测该基因的功能。4.所有的基因功能鉴定，都必须要有不同水平（DNA、RNA、蛋白质水平等）的生物学实验的证明，才能最终确认基因的功能。

三部曲是紧密相连的，其中第一步是第二步和第三步的基础工作，换言之没有测序就没有基因组草图，更没有精确的物理图谱和基因功能的鉴定。基因组计划的三步是按部就班完成的，第二步的精细图谱是承接第一步的草图和第三步的基因功能鉴定的桥梁，只有在草图的基础上最终确定了精细的序列图谱，并且有足够的分子标记，才能给基因定位，才能准确的知道基因的位置。基因的功能鉴定则是在图谱绘制的基础上对生物的整个基因组的详细注释，使得测序完成的基因序列具备实用性。

2．对重叠克隆群获得的测序片段进行组装的纠错包括哪些策略？（1）重叠克隆片段两末端序列；（2）作图法测序和鸟枪法测序；（3）基因组测序的覆盖度。简述这3种策略的内涵。

第一，重叠克隆群两末端序列：最早采用的方法，就是利用重叠克隆片段两末端的重叠序列，将不同的克隆片段连接成为完整的染色体序列。第二，作图法测序和鸟枪法测序：鸟枪法测序又叫全基因组随机测序，是通过构建不同长度的插入片段的基因组文库，其中包括40kb以下的采用质粒作为克隆载体的重叠克隆群，这些重叠克隆群可以降低采用BAC作为载体的大片段重叠存在的序列误差。第三，基因组测序的覆盖度：覆盖度是指随机测序获得的序列总长度占基因组总长度的百分比，覆盖度越大，获得的关于该物种的基因组信息越全面。

3．计算机软件解读基因组遗传信息包括哪些“基因”特征的限制？同源性搜索注释获得的已知基因和未注释的未知基因可为社会学、医学、农学、考古学等应用学科和应用基础学科，特别是为基础学科研究提供了你所了解的那些有价值的信息？

计算机软件解读基因组遗传信息是通过以下几个方面进行的：1.首先对全序列进行扫描，检测序列中的开放阅读框；2.通过不同物种的基因组中对于相同氨基酸的序列偏爱性即密码子偏爱性来筛选已经检测到的开放阅读框，去除那些不符合该物种的密码子偏爱性的开放阅读框；3.为了进一步在剩余的开放阅读框中找到真正的基因，利用真核生物的基因中含有内含子和外显子的特点，在开放阅读框中搜索内含子-外显子边界，再次筛选出可能的基因，去除不符合条件的基因；4.还可通过基因的上游调控序列来进一步确定开放阅读框是否就是基因。

同源性搜索是在生物核酸序列中寻找已知基因的做法。同源性搜索需要知道该物种的物理图谱，在物理图谱中的序列进行与已知基因组序列相同或相似性的比对，同源的基因在核苷酸序列的上具有较高的相似性，甚至可能完全相同。通过寻找同源序列，可以运用已知基因的功能预知该基因的功能，只要再通过简单的生物学实验验证即可对该

基因进行注释，极大地增强了对基因注释的能力。虽然同源性搜索比对基因序列为基因注释提供一种有效的途径，但其局限性在于只能针对已经获得同源性基因的功能的基因，无法通过这种方法发现新的基因。但是随着越来越多的基因被注释，人类未知的基因的越来越少，这种方法的实用性将会越来越强。

4．EST数据库代表的是什么遗传信息？为什么需要在基因组测序前建立EST数据库？

由EST数据库与基因组数据库相互验证获得的基因数目可提供什么信息？由EST数据库制作的基因芯片可以为功能基因鉴定提供什么信息？

EST数据库是指在生物体不同发育时期不同组织器官中的各种细胞表达不同的基因，通过基因表达产物mRNA的逆转录合成的cDNA，由这些cDNA组成的基因文库。

在基因组测序之前建立EST文库的作用在于知道了这些已经表达基因的cDNA，有助于在测序完成之后对可疑基因的确认，因为如果掌握了足够全面的EST数据，生物体的基因就会在数据库中存在其cDNA，以此来确认基因。

又EST数据库与基因组数据库相互验证获得基因数目，可以获得基因组测序的覆盖度。

由EST数据库制作的基因芯片可以用来鉴定某个可疑基因是不是真正的基因，还可能知道该基因在什么时期在哪些细胞中进行了表达，以此来推测这个基因的作用。5．对基因组序列解读的遗传信息进行基因注释和功能预测，包括（1）通过同源性和相似性搜索比对注释其已知基因；（2）通过蛋白质结构域注释和预测其超基因家族成员（未知基因），（3）通过协同进化注释和预测其未知基因。简要说明前二者的依据和所提供的基因信息特征。

通过同源性和相似性搜索比对注释已知基因的依据是通过相同或者相似基因的基因序列具有一定的相似性甚至完全相同，所以通过序列的搜索便可以确定同源基因，通过同源基因的基因功能就可以预知基因功能，注释基因。

通过蛋白质结构域注释预测超基因家族即相似性搜索，就是通过将基因序列翻译成氨基酸序列，通过电脑软件预测蛋白质的结构，确定蛋白质结构域的那几个氨基酸，再通过相似性比对找到基因产物结构域与目标基因相似的基因，理论上这两个基因的功能也应该是相似的。

通过同源性和相似性搜索，可以找到与目标基因功能相同或相似的基因，但是对于既没有同源基因又没有相似基因的基因来说，确定其基因功能还有一个方法就是通过协同进化来注释位置基因。通常在生物进化的过程中，具有相关功能的基因总是协同进化