50个全外显子测序揭示人类的高原适应机制

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

50个全外显子测序揭示人类的高原适应机制

Xin Yi等。

Science 329, 75 (2010);

DOI: 10.1126/science.1190371

50个全外显子测序揭示人类的高原适应机制

生活于青藏高原的藏族人表现出了对极端高原环境的遗传适应性。我们对50个藏族人进行全外显子基因组测序,它们包含了92%的人类基因编码序列,人均覆盖度为18倍。基因分析显示了该特殊人群等位基因频率的变化,表明这些人对高原环境具有很强的适应性。

研究显示,表现出最强自然选择信号的基因是编码内皮细胞含PAS结构域蛋白-1(EPAS1)的基因,这是一个参与应答缺氧的转录因子。研究显示,EPAS1基因的一个单核苷酸多态性(SNP)在78%的藏族和汉族人群中存在差异,这是目前发现的速率改变最快的等位基因。该单核苷酸多态性与红细胞丰度的关联分析也支持EPAS1改变在适应缺氧环境中的作用,进一步表明它是适应高原环境的一个重要的遗传位点。

在广袤的大自然中生存的人类可能会存在文化和基因上的适应。其中人类面临的最严厉的环境挑战就是高海拔地区(如青藏高原)的低含氧量。这一地区的许多居民在海拔4000米以上居住,那里的氧气浓度比海平面大约低40%。藏族对缺氧环境有着他们自己的遗传适应性,如出生体重(1),血红蛋白水平(2),婴儿(3)和运动后的成年人(4)血液中的氧饱和度。这些结果暗示了高原适应机制的自然选择历史,我们对整个基因组的遗传差异进行分析,可能会发现这一点。

我们对中国西藏自治区海拔4300米以上(5)的两个村庄里的50个非亲个体进行全外显子基因组测序。针对将近两万个基因的外显子和侧翼区的34Mb序列,利用罗氏NimbleGen公司(威斯康星州麦迪逊市)的2.1M外显子序列捕获芯片(6)将其富集。测序采用了Illumina公司(加利福尼亚州圣地亚哥市)的基因组分析仪II平台,并使用序列比对程序SOAP(7)将测序片段比对到人类参考基因组序列上[美国生物技术信息中心(NCBI) 36. 3版]。

1深圳华大基因研究院,中国深圳,518083。

2中国科学院研究生院,中国北京,100062。

3加州大学伯克利分校综合生物学与统计系,美国加州,94820。4华南理工大学生物系本科创新班,中国广州,510641。

5西藏自治区人民医院,中国拉萨,850000。

6加州大学戴维斯分校进化与生态学系,美国加州,95616。

7哥本哈根大学生物系,丹麦哥本哈根,1165。

8华南理工大学理学院本科创新班,中国广州,510641。

9深圳大学医学院基因组研究所,中国深圳,518060。

10拉萨市人民医院,中国拉萨,850000。

11西藏军区总医院,中国拉萨,850007。

12西双版纳傣族自治州人民医院,中国云南景洪,666100。

*以上机构及相关人员对本研究作出了贡献。如有疑问请联系:

E-mail:wangjian@ ( Ji.W.);

wangj@ ( Ju.W.);

rasmus_nielsen@ (R.N.)

全外显子测序的平均深度为18倍(表S1),但这并不能保证个别基因型的准确性。因此,我们用贝叶斯统计法(5)估算出每个可能的基因型概率,从而估算出单核苷酸多态性(SNP)的概率和每个位点的人类等位基因频率。在藏族样本中总共151825个SNPs有超过50%被识别出是可变的,有101668个超过99%的SNP是可变的(表S2)。Sanger测序验证了56个SNPs 中的53个,至少包含95%的SNP和3%~50%的次等位基因频率。等位基因频率的估算值显示存在过量的低频变异(图S1),特别是在非同义SNPs中。

该数据与来自于北京的40个汉族人的基因组进行比较[样本来自于中测检测(CHB)人类基因组单体型图计划(HapMap),属于1000个基因组计划的一部分()],测序得出汉族人均大约4倍的覆盖度。北京的海拔不超过50米,几乎所有的汉族人来自于海拔2000米以下。在较低的遗传分化基础上汉族人样本与藏族人样本形成鲜明的对比(F ST= 0.026)。这两个藏族村庄是体现该族遗传结构的最小单位(F ST= 0.014),因此,我们可以将他们当着整个群体进行分析。我们观察到,汉藏之间的等位基因频率有着很强的协方差(图1),但是过量的SNPs在汉族中频率很低,在藏族中频率中等。

从两个群体同义位点的二维频谱,可以估算出人类历史模型(8)。最佳拟合模型表明,藏族和汉族人群在2750年前出现分化,汉族人口从最初的小规模逐渐增大,藏族人口从最初的大规模逐渐减少(图S2)。这估计是由于藏族人移民至汉族区,双方长期相互渗透所造成的。

图1 藏族(X轴)与汉族(Y轴)群体样本裸露位点的单核苷酸多态性(SNPs)二维频谱。

不同颜色标记的对数比例图显示出SNPs的数量。箭头标识出EP AS1基因一对内含子的SNPs,

与汉族样本比较,藏族样本的等位基因频率增长的更快。

表1 藏族人群的基因有着最大频率的改变。下表列出藏族分支PBS值的前30名。

在这些基因座长达100kb的片段上,与氧有关联的候选基因被单独注释。

对于FXYD,其中F代表苯丙氨酸;Y代表酪氨酸;D代表天冬氨酸;X代表任何氨基酸。

基因功能描述附近候选基因群体分支统计P值EPAS1 内皮细胞含PAS结构域蛋白-1(EPAS1) (Self) 0.514 <0.000001 C1orf124 假定蛋白LOC83932 EGLN1 0.277 0.000203 DISC1 中止精神分裂症1 EGLN1 0.251 0.000219 ATP6V1E2 腺苷三磷酸酶,H+运输,溶酶体31 kD,V1 EPAS1 0.246 0.000705 SPP1 分泌磷蛋白1 0.238 0.000562 PKLR 丙酮酸激酶,肝脏,红细胞(Self) 0.230 0.000896 C4orf7 染色体4开放阅读框7 0.227 0.001098 PSME2 蛋白酶激活亚基2 0.222 0.001103 OR10X1 嗅觉感受器,10家族,X亚族SPTA1 0.218 0.000950 FAM9C 序列相似的9家族,成员C TMSB4X 0.216 0.001389 LRRC3B 包含3B富含亮氨酸的重复单位0.215 0.001405 KRTAP21-2 角蛋白相关蛋白21-2 0.213 0.001470 HIST1H2BE 组蛋白集群1,H2be HFE 0.212 0.001568 TTLL3 微管蛋白酪氨酸连接酶家族,成员3 0.206 0.001146 HIST1H4B 组蛋白集群1,H4b HFE 0.204 0.001404 ACVR1B A型活化素IB受体亚型前体ACVRL1 0.198 0.002041 FXYD6 FXYD域蛋白,包含离子转运调节0.192 0.002459 NAGLU α-N-乙酰葡糖胺糖苷酶前体0.186 0.002834 MDH1B 苹果酸脱氢酶1B,辅酶I(可溶) 0.184 0.002113 OR6Y1 嗅觉感受器,家族6,Y亚族SPTA1 0.183 0.002835 HBB β-球蛋白(Self), HBG2 0.182 0.003128 OTX1 Orthodenticle基因同源异型框1 0.181 0.003235 MBNL1 Muscleb lind类似蛋白1 0.179 0.002410 IFI27L1 干扰素,α-诱导蛋白27-类似1蛋白0.179 0.003064 C18orf55 假定蛋白LOC29090 0.178 0.002271 RFX3 调控因子X3 0.176 0.002632 HBG2 G-γ球蛋白(Self), HBB 0.170 0.004147 FANCA 范可尼贫血,互补群A (Self) 0.169 0.000995 HIST1H3C 组蛋白集群1,H3c HFE 0.168 0.004287 TMEM206 跨膜蛋白206 0.166 0.004537

相关文档
最新文档