基因组学重点整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物
具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成
新基因的产生:基因与基因组加倍1)整个基因组加倍;2)单条或部分染色体加倍;3)单个或成群基因加倍。DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。动物中由于种间隔离不易进行种间杂交,但其主要来源于真核细胞与原核细胞的内共生。动物种间基因转移主要集中在逆转录病毒及其转座成分。
外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌
基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。这意味着,基因组中有冗余基因存在。看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。
非编码序列扩张方式:滑序复制、转座因子
模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。进化程度越高, G+C 含量和CpG 岛的比例就比较低
如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。细菌基因组的ORF阅读相对比较简单,错误的机率较少。高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子
内含子和外显子序列上的差异:内含子的碱基代换很少受自然选择的压力,保留了较多突变。由于碱基突变趋势大多为C-T,故A/T的含量内含子高于外显子。由于终止密码子为TAA\TAG\TGA,如果以内含子作为编码序列,3种读码框有很高比例的终止密码子。
基因注释程序编写的依据:1)信号指令,包括起始密码子,终止密码子,终止信号,剪接受体位和供体位,多聚嘧啶序列,分支点保守序列2)内容指令,密码子偏好,内含子和外显子长短
基因功能的检测:基因失活、基因过表达、RNAi干涉
双链DNA的测序可从一端开始,亦可从两端进行,前者称单向测序,后者称双向测序。
要获得大于50 kb的DNA限制性片段必需采用稀有切点限制酶。
酵母人工染色体(YAC)1)着丝粒在细胞分裂时负责染色体均等分配。2)端粒位于染色体端部的特异DNA序列,保持人工染色体的稳定性3)自主复制起始点(ARS)在细胞中启动染色体的复制
合格的STS要满足2个条件:它应是一段序列已知的片段,可据此设计PCR反应来检测不同的DNA片段中是否存在这一顺序;STS必需在染色体上有独一无二的位置。如果某一STS在基因组中多个位点出现,那么由此得出的作图数据将是含混不清的。
遗传图绘制主要依据由孟德尔描述的遗传学原理,第一条定律为等位基因随机分离,第二条定律为非等位基因自由组合,显隐性规律/不完全显性、共显性、连锁
衡量遗传图谱的水平覆盖程度饱和程度
基因类型:transcribed, translatable gene (蛋白基因) ;transcribed but non-translatable gene ( RNA基因)Non- transcribed, non-translatablegene ( promoter, operator ) rRNA基因,tRNA基因, scRNA基因, snRNA基因, snoRNA基因, microRNA基因
基因组(genome):生物所具有的携带遗传信息的遗传物质总和。
基因组学(genomic):用于概括涉及基因作图、测序和整个基因功能分析的遗传学分支。
染色体组(chromosome set):不同真核生物核基因组均由一定数目的染色体组成,单倍体细胞所含有的全套染色体。
比较基因组学(comparative genomics):比较基因组学是基因组学与生物信息学的一个重要分支。通过模式生物基因组与人类基因组之间的比较与鉴别,为分离重要的候选基因,预测新的基因功能,研究生物进化提供依据。(目标)
RNA世界:RNA不仅可以是信息的携带者,而且还可以是功能的执行者,这使科学家们想到了原始的生物世界可能是一个只由RNA组成的“RNA世界”
外显子洗牌:由不同基因中编码不同结构域的片段彼此连接形成的全新编码顺序称为功能域或外显子洗牌。水平基因转移:是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。
基因共线性(syteny/colinearity):不同基因组中,基因排列顺序的一致性更能够体现基因组的共同起源,这种基因排列顺序的一致性称为共线性。破坏基因组共线性的因素很多, 包括转座、插入、染色体重排、区段加倍和缺失。染色体重排可造成大范围基因位置的改变,但不打乱基因组某些区段的微观共线性。
宏观共线性系指遗传连锁图上锚定标记排列次序的一致性。
微观共线性(microsynteny)则指物理图上基因顺序的一致排列。在多数情况下, 只有在进化距离非常近的物种间才能保持很好的微观共线性。
基因岛(gene island):某些区段基因密度比全基因组的平均密度高很多,形成基因岛。
直系同源集簇(clusters of orthologous groups,COG):由一个共同的祖先基因衍生的一组基因。包括:不同基因组中执行同一生物学功能的种间同源物(ortholog);同一基因组中因基因加倍产生的种内同源物(paralog),或平行基因。
基因的协同丢失和协同进化:执行同一生物学功能的基因有相伴丢失的趋势。与此同时,为了补偿丢失基因所执行的功能,导致其它具有类似功能的基因群高度分化。这就是基因的协同丢失和协同进化。
开放读框(open reading frames, ORFs)所有编码蛋白质的基因都含有开放读框,它们由一系列指令氨基酸的密码子组成。开放读框有一个起点,又称起译密码,一般为ATG,还有一个终点,又称终止密码,分别为TAA,TAG和TGA,三者含义相同。
同义密码子(synonym):编码同一氨基酸的不同密码子称为同义密码子,其差别仅在密码子的第三位碱基不同。
同源查询(homology search)利用已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序用于界定基因,这种方法称为同源查询。同源查询的依据:生物的不同种属之间具有功能或结构相似的直系基因成员,它们在起源上一脉相承,其间存在保守的顺序组成。待注释的DNA顺序与已报道的其它基因序列对比,可发现其中的相似性:1)存在某些完全相同的序列;2)ORF读框的排列类似,如等长的外显子;3)ORF指令的氨基酸顺序相同;4)模拟的多肽高级结构相似
孤独基因(orphan gene)在基因分类时,缺少同源顺序的ORF被称为孤独基因。
同源性(homology): 起源于同一祖先序列发生变异的序列。直向同源基因(orthologous ~)不同物种间的同源基因。
共生同源基因(paralogous ~)同一物种的同源基因。
相似性(similarity): 同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占比例。可取代氨基酸:具有相同性质(极性)的氨基酸,代换不影响蛋白质的生物学功能
一致性(identity): 同源DNA(蛋白质)序列中同一碱基(氨基酸)位置上相同的碱基(氨基酸)成员
动物园杂交(Zoo-blotting)如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号,该区段可能含有一个或多个基因,这种方法称为动物园杂交。
结构域(domain):指蛋白质高级结构中具有相对独立的亚结构区,通常含有数个二级结构基序,具有相对独立的功能。
蛋白质域结构(domain architecture):又称蛋白质指纹,指蛋白质成员中结构域的组合形式及排列顺序。
直系同源(orthologous)这是指不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。
平行同源(paralogous)同一种生物内部的同源基因,它们常常是多基因家族的不同成员, 其共同的祖先基因可能存在于物种形成之后,也可能出现于物种形成之前。
基因剔除(knock-out)将一段无关的DNA片段用来取代某一特定的基因,是最简便的使基因失活的方法。主要原理是,在一段无关片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因整合到染色体中。
覆盖面:指随机测序获得的序列总长与单倍体基因组序列总长之比。
染色体步移(chormosome walking) 从第一个重组克隆插入片段的一端分离出一个片段作为探针从文库中筛选第二个重组克隆,该克隆插入片段含有与探针重叠顺序和染色体的其他顺序。从第二个重组克隆的插入片段再分离出末端小片段筛选第三个重组克隆,如此重复,得到一个相邻的片段,等于在染色体上移了一步,故称之为染色体步移顺序标签位点(Sequence tagged site, STS)是一小段长度在100到500 bp的DNA顺序,每个基因组仅一份拷贝,很易分辨。顺序标签位点作图通过PCR或分子杂交将小段DNA顺序定位在基因组的DNA区段中。