基因组学重点整理
基因组学考试重点

第一章大规模基因组测序的原理与方法1、基因组学是要揭示下述四种整合体系的相互关系:(1)基因组作为信息载体(碱基对、重复序列的整体守恒与局部不平衡的关系)(2)基因组作为遗传物质的整合体 (基因作为功能和结构单位与遗传学机制的关系)(3)基因组作为生物化学分子的整合体 (基因产物作为功能分子与分子、细胞机制的关系)(4)物种进化的整合体 (物种在地理与大气环境中的自然选择)2、为什么说基因组学是一门大科学?(1)“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。
(2)基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;既是生命本质研究的出发点之一,又是生物信息的归宿。
(3)基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。
(4)基因多态性的规模化研究就是基因组多态性的研究。
(5)基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。
(6)基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。
(7)基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。
(8)基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。
(9)基因组的信息含量高。
基因组学的研究又在于基因组间的比较。
(10)基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。
(11)基因组学研究的手段和技术已经走在生命科学研究的最前沿。
(12)基因组信息来自于高效率和规模化所产生的实验数据。
(13)人类基因组计划证明了基因组研究的迫切性和可行性。
3、大规模基因组测序的几个支撑技术是什么?(1)双脱氧末端终止法双脱氧终止法,即测序法,是根据在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列片段,然后在尿素变性的胶上电泳进行检测,从而获得可见的碱基序列。
基因组学知识点总结

基因组学知识点总结基因组学是研究生物体的基因组结构、功能以及其与遗传性状的关系的学科。
下面将对基因组学的相关知识进行总结,包括基因组、基因、DNA测序技术等内容。
一、基因组和基因基因组指的是一个生物体所有基因和非编码DNA序列的总和。
基因是基因组中的一个特定区域,能够编码特定的功能性产物,如RNA和蛋白质。
基因组学研究着基因组中存在的各种基因的类型、数量以及它们在生物体中的分布和功能。
二、DNA测序技术DNA测序技术是基因组学中的重要工具,通过测序技术可以获取到DNA序列的信息,从而研究基因组结构和功能。
在过去的几十年里,DNA测序技术经历了多次技术革新,从传统的Sanger测序到现代的高通量测序技术,如二代测序和三代测序技术。
三、基因组测序项目基因组测序项目是基因组学研究的重要组成部分。
其中,人类基因组计划是最为著名的基因组测序项目之一,对人类基因组进行了全面的测序和分析,为后续的基因组学研究提供了重要的基础数据。
四、功能基因组学功能基因组学研究基因组中的各种功能元件,如调控区域、非编码RNA等,以及它们在基因调控网络中的作用和相互关系。
通过功能基因组学的研究,我们可以更好地理解基因组中各个功能区域的作用机制和生物学意义。
五、比较基因组学比较基因组学研究不同物种之间基因组的异同,以及这些差异对生物体特性的影响。
通过比较基因组学的研究,我们可以了解不同物种间的进化关系、基因家族的起源和演化等重要问题。
六、基因组编辑技术基因组编辑技术是基因组学中的一项重要技术,主要用于修饰和改变生物体的基因组。
目前,CRISPR-Cas9系统是最为常用的基因组编辑技术,能够实现高效、精确的基因组编辑,对基因组学研究和生物技术应用具有重要意义。
七、应用领域基因组学在许多领域都有广泛的应用,包括生物医学研究、农业与畜牧业、环境保护等。
通过基因组学的研究,我们可以揭示疾病的遗传基础、改良作物和畜牧动物的品质特性、了解生物多样性等重要问题。
基因组学考点复习

基因组学考点复习第一章绪论1.基因组学的发展历史和现状(人类基因组计划HGP)答:人类基因组计划与20世纪80年代中期开始酝酿,1989年美国正式资助,2000年6月宣布完成人类基因草图。
人类基因组计划是一项世界范围的科研项目,有六个国家16个单位参加,中国是其中之一。
人类基因组测序计划原定于2003年结束,由于采取一些新的技术提前3年完成。
国际人类基因组测序联合体公布的人类基因组草图覆盖了整个基因组的86.8%,包括常染色质区域的97%。
截止2012.1.31,国际上已完成的和正在进行的基因组测序计划共12251个,包括真核生物,真细菌和古细菌。
2.基因组学的研究内容答:Genomics: The studies of the structure and function of genomes.Structure and sequence of genomes;Function of genomics;Applied genomics.3.什么是基因组Genome、转录组和蛋白质组答:Genome:The entirety of an organism's hereditary information. It is encoded either in DNA or, for many types of virus, in RNA. 转录组:RNA copies of the active protein-coding genes。
蛋白质组:The cell’s repertoire of proteins第二章遗传作图1.遗传作图的分子标记类型(RFLP、STR/VNTR/Microsatellite、SNP)、分布特征和作图方法答:RFLP:Restriction fragment length polymorphisms, 限制性片段长度多态性;VNTR:小卫星序列STR:微卫星序列SNP:单核苷酸多态性single nucleotide polymorphisms 2.卫星、小卫星、微卫星的区别答:卫星的组成单位是短碱基序列,卫星序列位于染色体的异染色质区;小卫星在染色体上分布于常染色质区;微卫星重复单位仅2-5bp,也位于常染色质区。
基因组学

名词解释:第一章基因组遗传图(连锁图):指基因或DNA标记在染色体上的相对位置与遗传距离。
单位是厘摩cM (基因或DNA片段在染色体交换过程中分离的频率)。
物理图:以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site, STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。
转录图:以EST(expressed sequence tag ,表达序列标签)为标记,根据转录顺序的位置和距离绘制的图谱。
EST:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的5'或3'端序列称为表达序列标签(EST),一般长300-500 bp左右。
序列图(分子水平的物理图):序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。
既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。
基因:合成有功能的蛋白质或RNA所必需的全部DNA序列,即一个基因不仅包括编码蛋白质或RNA的核酸序列,还应包括为保证转录所必需的调控序列。
基因组(genome):生物所具有的携带遗传信息的遗传物质的总和。
基因组学(genomics):涉及基因组作图、测序和整个基因组功能分析的一门学科。
C值:单倍体基因组的DNA总量,一个特定种属具有特征C值C值矛盾(C value paradox):指一个有机体的C值和其编码能力缺乏相关性。
单一序列:基因组中单拷贝的DNA序列。
重复序列:基因组中多拷贝的DNA序列。
复杂性(complexity):基因组中不同序列的DNA总长。
高度重复序列(highly repetitive sequence):重复片段的长度单位在几个到几百个碱基对(base pair,bp)之间(一般不超过200 bp),串联重复频率很高(可达106以上),高度重复后形成的这类重复顺序称为高度重复顺序。
中度重复序列(intermediate repetitive sequence ):重复长度300~7000 bp不等,重复次数在102~105左右。
基因与基因组知识点资料整理总结

第一章基因与基因组1.基因的概念:基因是指合成有功能的蛋白质多肽链或RNA所必需的全部核酸序列(通常指DNA)。
2.基因的结构:①真核生物的结构基因不是连续编码的,而是由编码序列和非编码序列两部分构成,二者相互间隔排列,因此这种基因又称作割裂基因(split gene).②人类编码基因主要由外显子、内含子和侧翼序列组成.③能转录、并存在于成熟RNA中的序列称为外显子(exon)④能转录、但不存在于成熟RNA中的序列称为内含子(intron)(注:GT-AG法则:每个内含子的5’端开始的两个核苷酸都是GT,3’端末尾的两个核苷酸都是AG。
)⑤不同数目的外显子和内含子组成的各个基因大小各不相同;无内含子的基因一般较小,有较大内含子的基因一般较大。
⑥每个结构基因的第一个外显子和最后一个外显子外侧,即基因的5′端和3′端都有一段不被转录的DNA序列,对基因的转录表达及表达水平具有重要的调控作用。
包括:启动子、增强子和终止子,属顺式调控因子,称为调控序列。
(启动子 (Promoter),通常位于基因转录起点上游的100bp范围内,是RNA聚合酶的结合部位,促进转录过程,包括TATA框、Hogness框(TATA box, Hogness box)、CAAT框(CAAT box)和GC框(GC box)。
终止子 (Terminator),一段回文序列以及特定的序列,例如:5’-AATAAA-3’是RNA停止工作的信号。
增强子(Enhancer),启动子上游或下游的一段DNA序列,无明显方向性,但具有组织特异性,可增强启动子转录的效率)3.基因家族、基因簇和假基因①基因家族 (gene family):基因组中来源相同、结构相似、功能相关且常成簇存在的一组基因。
②基因簇:家族成员成簇排列在同一条染色体上,形成一个基因簇;不同成员成簇地分布在几条不同的染色体上,形成几个基因簇。
基因簇成员可能同时表达,也可能在不同发育阶段或不同部位表达。
基因组学考试重点宝典

2.C 值(C value):是指一个单倍体基因组中DNA的总量,一个特定的种属具有特征的C值。
3. C值悖理(paradox) 生物的复杂性与基因组的大小并不完全成比例增加的现象.4.遗传作图(genetic mapping):采用遗传学分析方法将基因或其他DNA顺序标定在染色体上构建连锁图。
这一方法包括杂交实验和家系分析。
基因或DNA标志在染色体上的相对位置与遗传距离。
遗传距离用重组率来衡量。
即通过计算两个连锁的遗传标记在每次减数分裂中的重组概率,确定两者的相对距离遗传图距单位为 cM,每单位厘摩定义为1%交换值5.物理作图(physical mapping):采用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组实际位置。
物理图的距离依作图方法而异,辐射杂种作图的计算单位为厘镭(cR),限制性片段作图与克隆作图的图距单位为DNA的分子长度,即碱基对。
6.重组热点(recombination hot spot):染色体的某些位点之间比其他位点之间有更高的交换频率,被称为重组热点。
7.基因组测序覆盖面(coverage):随机测序获得的序列总长与单倍体基因组序列总长之比,覆盖面越大,遗漏的序列越少。
8.密码子偏爱(codon bias):生物有时更加偏爱地使用一个或者一组密码子的现象。
这是在进化过程中基因复制的差异所产生的结果。
(仅供参考)9.开放读框(open reading frame ORF)它们由一系列指令氨基酸的密码子组成,有一个起始点和一个终止点。
10.功能域或外显子洗牌(domain shuffling or exon shuffling)由不同基因中编码不同结构域的片段彼此连接形成的全新编码序列称为功能域或外显子洗牌。
它们有有一个全新的结构组合,可为细胞提供完全不同的生物学功能。
11.直向同源基因(orthologous gene):这是指不同物种之间的同源基因,他们来自物种分割之前的同一祖先。
基因组学重点整理

生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物具有催化活性的RNA分子称为核酶〔ribozyme〕核酶催化的生化反响有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成新基因的产生:基因与基因组加倍1〕整个基因组加倍;2〕单条或局部染色体加倍;3〕单个或成群基因加倍。
DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。
动物中由于种间隔离不易进展种间杂交,但其主要来源于真核细胞与原核细胞的内共生。
动物种间基因转移主要集中在逆转录病毒及其转座成分。
外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌基因冗余:一条染色体上出现一个基因的很多复份(复本〕当人们别离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。
许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。
这意味着,基因组中有冗余基因存在。
看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。
与个体发育调控相关的基因表达为转录因子,具有多功能域的构造。
这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。
非编码序列扩张方式:滑序复制、转座因子模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。
模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。
进化程度越高, G+C 含量和CpG 岛的比例就比拟低如果基因之间不存在重叠顺序,也无基因内基因〔gene-within-gene〕,那么ORF阅读出现过失的可能只会发生在非编码区。
细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。
细菌基因组的ORF阅读相比照拟简单,错误的机率较少。
基因组学-总结

1.1.DNA顺序复杂性:不同顺序的DNA总长称为复杂性。
复杂性代表了一个物种基因组的基本特征,可通过DNA复性动力学来表示。
1.2.基因的定义:不同的DNA片段共同组成一个完整的表达单位,有一个特定的表达产物,可以是RNA分子,也可以是多肽分子1.3.反义基因:是指与细胞内DNA或RNA序列相互补形成杂交体而阻断或减弱其转录和翻译过程的DNA或RNA片段.反义基因通常包括反义寡核苷酸(ASON)、反义RNA及核酶1.4.假基因:与有功能的基因在核苷酸顺序的组成上非常相似,却不具正常功能的基因。
假基因是相应的正常基因在染色体的不同位置上的复制品,由于突变积累的结果而丧失活性。
假基因都是在真核生物的基因组中发现的,在原核生物中未见报道2.1.DNA标记的类型:限制性片段长度多态性(RFLP);简单序列长度多态性(SSLP)(小卫星序列和微卫星序列);SNP.2.2.RFLP(限制性片段长度多态性)的特点: 限制酶识别的碱基具有位点专一性,用不同的限制酶处理同一样品时,可以产生与之对应的不同限制性片段,提供大量位点多态性信息。
2.3. 部分连锁与遗传作图:交换是随机的,两个相近的基因发生交换的概率要比两个相远发生交换的概率要大,因此通过重组率的确定可以相对确定两个基因的位置。
由此可以进行基因的遗传作图。
3.1.分子信标的结构:环含识别序列,一般15 --33个核苷酸;茎在两末端各接上5到8个核苷酸的互补序列,富含GC;荧光素及猝灭剂3.2.猝灭剂:荧光染料发射的光能,可被邻近的染料或非染料分子所吸收转成热能而不再发射荧光,也可以发射能量较低的荧光3.3.PRET(激光共振能量转移):受激发荧光素的能量转移到邻近的另一荧光素,并不发射荧光而使激发荧光素回复基态时的现象。
3.4.原位杂交:靶子为完整的染色体,由杂交信号提供作图信号,DNA变性时不破坏染色体自然形态,原位杂交是指将特定标记的已知顺序核酸为探针与细胞或组织切片中核酸进行杂交,从而对特定核酸顺序进行精确定量定位的过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成新基因的产生:基因与基因组加倍1)整个基因组加倍; 2)单条或部分染色体加倍;3)单个或成群基因加倍。
DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。
动物中由于种间隔离不易进行种间杂交,但其主要来源于真核细胞与原核细胞的内共生。
动物种间基因转移主要集中在逆转录病毒及其转座成分。
外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。
许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。
这意味着,基因组中有冗余基因存在。
看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。
与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。
这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。
非编码序列扩张方式:滑序复制、转座因子模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。
模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。
进化程度越高, G+C 含量和CpG 岛的比例就比较低如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。
细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。
细菌基因组的ORF阅读相对比较简单,错误的机率较少。
高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。
高等真核生物多数外显子的长度少于100个密码子内含子和外显子序列上的差异:内含子的碱基代换很少受自然选择的压力,保留了较多突变。
由于碱基突变趋势大多为C-T,故A/T的含量内含子高于外显子。
由于终止密码子为TAA\TAG\TGA,如果以内含子作为编码序列,3种读码框有很高比例的终止密码子。
基因注释程序编写的依据:1)信号指令,包括起始密码子,终止密码子,终止信号,剪接受体位和供体位,多聚嘧啶序列,分支点保守序列2)内容指令,密码子偏好,内含子和外显子长短基因功能的检测:基因失活、基因过表达、RNAi干涉双链DNA的测序可从一端开始,亦可从两端进行,前者称单向测序,后者称双向测序。
要获得大于50 kb的DNA限制性片段必需采用稀有切点限制酶。
酵母人工染色体(YAC)1)着丝粒在细胞分裂时负责染色体均等分配。
2)端粒位于染色体端部的特异DNA序列,保持人工染色体的稳定性3)自主复制起始点( ARS)在细胞中启动染色体的复制合格的STS要满足2个条件:它应是一段序列已知的片段,可据此设计PCR反应来检测不同的DNA片段中是否存在这一顺序;STS必需在染色体上有独一无二的位置。
如果某一STS在基因组中多个位点出现,那么由此得出的作图数据将是含混不清的。
遗传图绘制主要依据由孟德尔描述的遗传学原理,第一条定律为等位基因随机分离,第二条定律为非等位基因自由组合,显隐性规律/不完全显性、共显性、连锁衡量遗传图谱的水平覆盖程度饱和程度基因类型:transcribed, translatable gene (蛋白基因 ) ; transcribed but non-translatable gene ( RNA 基因 )Non- transcribed, non-translatablegene ( promoter, operator ) rRNA基因,tRNA基因, scRNA基因, snRNA 基因, snoRNA基因, microRNA基因基因组(genome):生物所具有的携带遗传信息的遗传物质总和。
基因组学(genomic):用于概括涉及基因作图、测序和整个基因功能分析的遗传学分支。
染色体组(chromosome set):不同真核生物核基因组均由一定数目的染色体组成,单倍体细胞所含有的全套染色体。
比较基因组学(comparative genomics):比较基因组学是基因组学与生物信息学的一个重要分支。
通过模式生物基因组与人类基因组之间的比较与鉴别,为分离重要的候选基因,预测新的基因功能,研究生物进化提供依据。
(目标)RNA世界:RNA不仅可以是信息的携带者,而且还可以是功能的执行者,这使科学家们想到了原始的生物世界可能是一个只由RNA组成的“RNA世界”外显子洗牌:由不同基因中编码不同结构域的片段彼此连接形成的全新编码顺序称为功能域或外显子洗牌。
水平基因转移:是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。
基因共线性(syteny/colinearity):不同基因组中,基因排列顺序的一致性更能够体现基因组的共同起源,这种基因排列顺序的一致性称为共线性。
破坏基因组共线性的因素很多, 包括转座、插入、染色体重排、区段加倍和缺失。
染色体重排可造成大范围基因位置的改变,但不打乱基因组某些区段的微观共线性。
宏观共线性系指遗传连锁图上锚定标记排列次序的一致性。
微观共线性(microsynteny)则指物理图上基因顺序的一致排列。
在多数情况下, 只有在进化距离非常近的物种间才能保持很好的微观共线性。
基因岛(gene island):某些区段基因密度比全基因组的平均密度高很多,形成基因岛。
直系同源集簇(clusters of orthologous groups,COG):由一个共同的祖先基因衍生的一组基因。
包括:不同基因组中执行同一生物学功能的种间同源物 (ortholog);同一基因组中因基因加倍产生的种内同源物(paralog),或平行基因。
基因的协同丢失和协同进化:执行同一生物学功能的基因有相伴丢失的趋势。
与此同时,为了补偿丢失基因所执行的功能,导致其它具有类似功能的基因群高度分化。
这就是基因的协同丢失和协同进化。
开放读框(open reading frames, ORFs)所有编码蛋白质的基因都含有开放读框,它们由一系列指令氨基酸的密码子组成。
开放读框有一个起点,又称起译密码,一般为ATG,还有一个终点,又称终止密码,分别为TAA,TAG和TGA,三者含义相同。
同义密码子(synonym):编码同一氨基酸的不同密码子称为同义密码子,其差别仅在密码子的第三位碱基不同。
同源查询(homology search)利用已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序用于界定基因,这种方法称为同源查询。
同源查询的依据:生物的不同种属之间具有功能或结构相似的直系基因成员,它们在起源上一脉相承,其间存在保守的顺序组成。
待注释的DNA顺序与已报道的其它基因序列对比,可发现其中的相似性: 1)存在某些完全相同的序列; 2)ORF读框的排列类似,如等长的外显子;3)ORF指令的氨基酸顺序相同;4)模拟的多肽高级结构相似孤独基因(orphan gene)在基因分类时,缺少同源顺序的ORF被称为孤独基因。
同源性(homology): 起源于同一祖先序列发生变异的序列。
直向同源基因(orthologous ~)不同物种间的同源基因。
共生同源基因(paralogous ~)同一物种的同源基因。
相似性(similarity): 同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占比例。
可取代氨基酸:具有相同性质(极性)的氨基酸,代换不影响蛋白质的生物学功能一致性(identity): 同源DNA(蛋白质)序列中同一碱基(氨基酸)位置上相同的碱基(氨基酸)成员动物园杂交(Zoo-blotting)如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号,该区段可能含有一个或多个基因,这种方法称为动物园杂交。
结构域(domain):指蛋白质高级结构中具有相对独立的亚结构区,通常含有数个二级结构基序,具有相对独立的功能。
蛋白质域结构(domain architecture):又称蛋白质指纹,指蛋白质成员中结构域的组合形式及排列顺序。
直系同源(orthologous)这是指不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。
平行同源(paralogous)同一种生物内部的同源基因,它们常常是多基因家族的不同成员, 其共同的祖先基因可能存在于物种形成之后,也可能出现于物种形成之前。
基因剔除(knock-out)将一段无关的DNA片段用来取代某一特定的基因,是最简便的使基因失活的方法。
主要原理是,在一段无关片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因整合到染色体中。
覆盖面:指随机测序获得的序列总长与单倍体基因组序列总长之比。
染色体步移(chormosome walking) 从第一个重组克隆插入片段的一端分离出一个片段作为探针从文库中筛选第二个重组克隆,该克隆插入片段含有与探针重叠顺序和染色体的其他顺序。
从第二个重组克隆的插入片段再分离出末端小片段筛选第三个重组克隆,如此重复,得到一个相邻的片段,等于在染色体上移了一步,故称之为染色体步移顺序标签位点(Sequence tagged site, STS)是一小段长度在100到500 bp的DNA顺序,每个基因组仅一份拷贝,很易分辨。
顺序标签位点作图通过PCR或分子杂交将小段DNA顺序定位在基因组的DNA区段中。
表达顺序标签(EST):从cDNA克隆中找到的小段顺序,cDNA代表了mRNA所在细胞中表达的基因。
EST可转变为STS,条件是这个EST来自单拷贝基因而非基因家族成员。
RFLP标记限制性片段长度多态性,是指用某一种限制性内切酶来切割来自不同个体的DNA分子,内切酶的识别序列有差异,即是由限制性酶切位点上碱基的插入、缺失、重排或点突变所引起的。
这种差异反映在酶切片段的长度和数目上SSLP(Simple sequence length polymorphisms) 简单序列长度多态性,产于重复顺序的可变排列,同一位点重复顺序的重复次数不同,表现出DNA序列的长度变化。
SSLP有些场合又称SSR。
SSR标记:简单序列重复,微卫星DNA标记,它是指基因组中存在的由2-5个核苷酸为重复单位组成的长达几十个核苷酸的串联重复序列,广泛分布于真核生物基因组中。