关于在人类基因组中检测结构变异计算方法的综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于在人类基因组中检测结构变异计算方法的综述

【摘要】结构变异是基因的重排列,它对于进化有显著的贡献,在人类中自然变异通常涉及到基因相关的疾病。细胞压力过大,错误的重组机制能够导致基因序列大量不同的结构变异,传统的显微镜与阵列碱基方法常被用于检测大的变异或者是重复序列变异。下一代基因测序海森理论的启用对于在人类基因组中检测各种类型的结构变异都有空前的准确性。事实上,一个显著的挑战在于发展中的各种计算方法是否有能力在生成的模拟数据上检测出结构变异,在过去的几年中,基于在实验数据中获得四种不同类别的数据类发明了很多检测工具,这四种数据类分别是:成对碱基读取,读取深度,分裂碱基读取,组合序列。

【关键词】结构变异;重复序列变异;下一代基因测序;检测算法;成对碱基读取;读取深度;分裂碱基读取;重测序技术;集合

1.引言

结构变异描述了基因变异对于基因结构的影响,尽管人类基因变异最有可能引起的原因是单碱基变异,但是在人类基因组中蛋白显性与结构变异的相关性远远高于单碱基变异。结构变异发生的范围可以从几个bp(碱基的基本单位)到整个染色体。结构变异对于人种的多样性与疾病的发生有显著的影响,并且在任何的基因学研究中是非常重要的。结构体变异研究对于检测大变异,比如非整倍性变异与用微复制方法重组染色体有一定的局限性。

对于阵列碱基法,目前来说序列碱基法更容易解决检测小的微型的结构变异。下一代测序技术理论上能用前所未有的速度够识别出所有类型的结构变异,几种不同的方法在检测数据中显著的变异中都各有优点与不足。然而这些方法需要大量的计算分析,大量的算法在过滤数据上由显著的进展,与参考基因组或者其他样列做对比发现有相近的结构变异。在这里我将介绍结构变异在人类与其他物种上的效果,组合机制的不同导致变异信息的不同,最终产生不同的结构变异。随后,我将给出一个能够被用于检测结构变异所有方法的一个概述并提供目前可提供基于下一代测序技术用于检测人类基因组结构变异的计算工具的一个概述。

2.结构变异

2.1 结构变异的重要性

在人类基因组结构变异现在已知能够比单碱基覆盖更多的核苷酸,成百上千的结构变异产生于基因组上,有些变异跨染色体,打断基因中某些有规律的元素,但是这些变异对于蛋白表达通常没有影响,但是也能引起碱基数量变化,基因分裂,新融合基因,新的调整机制。

新的但碱基变异形成与不同的调整机制都取决于变异碱基的位置。尽管很多的结构变异不在编码区,它们仍然引入了大量的遗传因子和表型变异,不仅仅在

人类中存在这一现象,在各个物种间都有。

考虑到结构变异对于表达的影响,结构变异的发生对于自然选择与进化也有着显著的影响。事实上,结构变异在新物种的进化上与变异物种的进化上都有很大的关联,在植物与灵长类动物上有很多这样的例子,同样人类的一些特殊基因上也有这样的例子。下面将展示与人类由饮食引起的基因进化,还有取决于结构变异的疾病基因。

大量与疾病有关的结构变异是结构变异中的典型,变异影响基因的表达或者影响编码序列都会产生广泛而大量的基因疾病。俩个展示罕见和普通结构变异与疾病之间关系的模型已经被提出,第一个模型描述了在人类中罕见与常见的变异引起的疾病并收集了大量关于各种先天性疾病,神经性疾病,肿瘤类疾病的信息。第二个模型关注人口中普遍存在的变异,特别是拷贝数量变异的家族基因,尽管收集信息时病情的复杂程度会影响模型的敏感性,特别是免疫系统的疾病。例如这个模型中的HIV,疟疾,还有多种多样的免疫疾病。尽管在俩个模型中能够发现很多的例子,但这些例子在由结构变异引起的人类疾病中也是不全面的。这个问题归咎于我们对于普通变异与罕见变异的定义过于简单化。然而,有一点是非常明确的就是检测结构变异对于人类疾病的调查有很深远的影响,无论在诊断上还是在疾病的治疗上。

除了在疾病中扮演的重要角色,结构变异在人类普通日常功能上也很重要。类别转换重组的过程就依赖于结构变异对自身的刺激。这个过程对于抗原刺激使多种繁殖B细胞成熟时很重要的,同样对于人类免疫系统的完善也至关重要。对于结构变异的研究也告诉了我们关于遗传的机制。在过去的几年中对于制造结构变异的需求以及结构变异在遗传机制中扮演的角色都变得显著。然而,重要的是在各个研究领域中识别结构变异的正确率问题。

2.2 引起结构变异的原因

我们首先考虑的是结构变异产生的随机性,在特殊情况下结构变异的形式,特殊环境的影响还有细胞压力触发的结构变异。各种各样的压力源如:碱基复制,转录,或者细胞氧化再或者基因自身的重组都会触发结构变异。这些压力源也会导致DNA断裂与敏感处DNA复制失控从而导致结构变异,特殊的序列对于结构变异更加敏感是源于他们自己的结构,以及相关联的蛋白与基因序列层次的改变。此外,功能基因重组涉及到免疫系统中的蛋白会产生迷失目标的效果,从而导致DNA链双项断裂。在DNA链中随后而来的错误配对与错误重组会引发结构变异,从而对蛋白的定位或者在俩个指定位置间的近似定位产生错误,最后影响了基因的表达。

例如,非同源碱基末端重接的重组机制非常易于产生DNA双链断裂,单个的双链断裂对于DNA的自我修复能力来说是很容易修复的,但是如果在同一个染色体中有俩个双链断裂,会引起染色体中产生备用链。交替尾部链接机制是和基因重组有关而又不同的一种重组机制,然而这种重组机制的精确性目前来说我们还不知道,等位基因重组机制修复DNA双链断裂是用一个模板序列相对应无

差错的修复。然而这种修复机制的缺陷在于它能够导致非等位的基因重组。基于这个事实,非等位序列经常出现大量重复区域,假基因,以及多余复制碱基等因素导致的结构变异。另外基于非同源末端重接的重组机制下的复制,转录也被认为是产生结构变异的主要原因,而这俩个原因还会引起染色体混乱重组。现有几个模型的存在来解释这种结构变异的产生。微同源序列断裂修复模型指出单个DNA链断裂,然后复制到任何一个相近似的DNA单链,随后复制区域聚合,复制模板交换从而产生了染色体的混乱重组。还有一个相近的模型叫做锚点丢失与模版转换模型,模型中复制区域的锚点模版转换,听起来和上一个相似但是这个模型的转换是在DNA链没有断裂的情况下完成的。最后染色体内部和外部的非同源碱基碎片随机重组这一现象被称为染色体碎裂。在这个模型中一个或多个染色体被碎裂,然后随机融合。辐射和其它一些都可以引起大范围的染色体断裂。

2.3 结构变异的类型

结构变异可以以很多种形式发生,在这些形式中我们可以分为拷贝数量变异(CNV)与拷贝均衡变异。拷贝均衡变异包含反转变异与移位变异。拷贝数量变异包括删除,插入,复制。插入涉及一个新的序列或者异变碱基。新的序列的插入或者异变碱基的插入可能是由于碱基移位或者序列复制引起的。复制可能引起一系列串联的复制。碱基的复制分割点可能在附近的DNA源上,或者穿插于附近的合并的DNA进行复制。这个事件可能发生在染色体的内部。但是也有可能发生在不同的染色体间。从而导致染色体内部变异。结构变异的大小通常超过50bp或者1000bp。然而除了单碱基变异之外的任何变异都可以引起结构体变异。我们讨论的一些形式的变异通常发生在1bp到50bp之间,通常被称为非单碱基基因变异。

当然,一些变异的发生不单纯是一种类型,而是混合了多种类型。比如说反转序列碎片中可能同时包含一个删除类型的变异与插入类型的变异,或者其他类型的组合。所有变异形式中检测最不容易的是由染色体之间的重组导致的变异,额外还有,一条染色体上发生的删除而恰恰这条染色体其他位置上还有一个大小一样的插入,这导致很难发现变异的位置。然而不是所有形式的变异都可以检测出发生位置能变异的大小。准确的识别出结构变异需要全面的认知我们研究基因上的所有结构变异。检测变异类型的能力涉及不同变异类型,有的类型比较容易检测出,有的则复杂一些。我们将在下面进行讨论。

3.检测结构变异

像上面提到的那样,结构变异在大小上有很大的不同,比较大的结构变异被认为是微复制变异,它们可以被传统的细胞遗传技术所检测出,细胞遗传技术包括基因技术,比如说染色体核型技术,染色体绘画型技术。这些技术仍然被广泛应用,这些方法能够检测出大部分类型的几兆碱基大小的结构变异与非整倍体结构变异,基于这些技术上的提高仍在继续,为结构变异的检测问题的解决与灵敏度的提高都有待加强。

对于检测小的亚微观的结构变异,这些结构变异都有高分解度与高灵敏度,更多的新分子将在检测中被用到。这些方法无论在矩阵碱基或者是序列碱基中都

相关文档
最新文档