40个基因组完全重测序揭示蚕的驯化事件及其相关基因
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编者按:我国家蚕基因组研究再获重大突破,研究成果再登《science 》杂志,影响广泛。
本刊特设专栏刊发该论文中文译文以及相关评述,以满足广大读者的需求。
40个基因组完全重测序揭示蚕的驯化事件及其相关基因
3
夏庆友1,23,郭一然33,张泽1,23,李东1,33,玄兆伶33,李卓33,代方
银1,李英睿3,程道军1,李瑞强3,4,程廷才1,2,蒋涛3,赛琳・贝凯5+,徐
讯3,刘春1,查幸福1,樊伟3,林英1,沈以红1,蒋岚3,杰弗里・詹森5,伊
恩丝・黑尔曼5,唐思5,赵萍1,徐汉福1,余昶3,张国捷3,李俊3,曹建
军3,刘仕平1,何宁佳1,周妍3,刘慧3,赵静3,叶辰3,杜周和1,潘国庆1,
赵爱春1,邵浩靖3,曾巍3,吴平3,李春峰1,潘敏慧1,李晶晶3,殷旭阳3,
李大为3,王娟3,郑会松3,王文3,张秀清3,李松岗3,杨焕明3,鲁成1,瑞
斯摩・尼尔森4,5,周泽扬1,6,汪建3,向仲怀1!,王俊3,4!
(1.农业部蚕桑学重点实验室,生物技术学院,西南大学,重庆 400715,中国;2.农学与生命科学研究院,重庆大学,重庆 400044,中国;3.深圳北京基因组研究
所,深圳 518083,中国;4.哥本哈根大学生物系,Universitetsparken 15,2100
Kbh ,丹麦;5.综合生物学与统计学系,伯克利加州大学,伯克利,CA 94720,美
国;6.重庆师范大学,重庆 400047,中国)
此论文报道了家蚕遗传变异图谱的构建,并由此推测出家蚕的单一驯化事件,鉴定了在家蚕驯化过程中起重要作用的基因。
利用40个家蚕品种和野蚕构建了单碱基分辨率家蚕遗传变异图谱,每一个品种的测序达到3倍覆盖度,覆盖基因组的99.88%。
我们鉴定了约1600万个SN P ,及许多插入缺失和结构变异,发现家蚕与野蚕在遗传上具有显著差异,但其本身保留了很高水平的遗传变异,暗示着大量的个体参与了一个较短的驯养过程。
我们也在354个候选基因中鉴定出了选择信号,这些候选基因可能在驯养过程中起着重要作用,其中一些基因在丝腺、中肠、精巢中高量表达。
这些数据加深了我们对家蚕驯养过程的理解,并可能促进家蚕在害虫控制和生物反应器方面的应用。
家蚕具有一个中等大小的基因组,为432Mb ,是鳞翅目的代表,其超过5000年的驯养历史,有着重要的经济价值(如产丝和生物反应器)。
由于人类的选择,家蚕进化成了完全依赖于人类的物种,并且在世界上保存了1000多个家蚕品种,考古和遗传学证据表明家蚕起源于中国野蚕,驯化最早出现在亚洲,亚洲是现代蚕丝文明和家蚕驯养的起源地。
家蚕的起源是一个长期争论的问题,以前有限的生物化学和分子生物研究并没有解决此争论。
共有两种假设,都认为家蚕是一次驯养过程,但是在祖先品种上观点不一致。
其中一种
1
第29卷 第3期2009年 9月 蚕 学 通 讯Newsletter of Sericult ural Science 3
这些作者为同等贡献作者。
+当前地址:人类遗传学研究所,加利福尼亚大学,旧金山,加利福尼亚94143-0794,美国。
!通讯作者,Email :wangj @ (J.W.)和xbxzh @ (Z.X.)。
2蚕 学 通 讯 29卷
观点主要是根据同工酶多态性,认为一化性品种是祖先(化性代表每年发生的世代数),二化和多化起源于人工选择,然而其他人从考古、历史和遗传学证据给出了相反的演化途径。
另外一种假设是根据随机扩增多态性DNA(RA PD),认为家蚕的祖先并不是起源于一个单一的品种,而是起源于多个不同地理位置和生态类型的多个品种。
这些理论之所以存在矛盾可能是由于它们来自不完整的遗传信息,因此,在这里我们提供了一个全基因组水平的遗传变异图谱,目的在于重建家蚕驯养历史。
这些数据来自于40个蚕样本,包括11个来自不同地方的野蚕样本和29个不同表型和地理位置的家蚕品系(从地理上分为:中国系统、日本系统、热带系统、欧洲系统和突变系统)(表S1)。
通过构建单双末端文库(插入片段长度为137-307bp)我们对每一个样本以3倍的覆盖度进行了基因组测序。
用SOA P软件将原始的短的测序序列(reads)贴到432Mb的大造基因组序列上,将所有从40个样本测序的原始序列汇总,用Soap SN P软件从中鉴定出15,986,559个SN P,这些SN P的准确性用Sequenom进行确认,正确率达到96.7%。
随后,将所有29个家蚕品种和11个野蚕品种的数据分别进行汇总,获得了家蚕和野蚕品种的SN P数目。
家蚕与野蚕SN P的数目分别为14,023,573和13,237,865,为了阐明家蚕和野蚕SN P数量上差异的原因,我们利用群体大小与突变率之间的度量值θS来测定遗传变异,发现家蚕的θS,domesticated值显著比野蚕的θS,wild值要小。
这可能反映了有效群体大小和群体统计学历史(包括驯养和人工选择)之间的差异。
发现家蚕品种的杂合率还不到野蚕的杂合率的一半(分别为0.0032和0.0080)。
杂合性降低很可能是由于近亲交配或者是驯养品种间的瓶颈造成的。
除了SN P,我们也鉴定了311,608个小的插入缺失(表S4A),其中一些经过PCR进行了验证。
插入缺失的θS值(表S4B)和家蚕与野蚕相比具有更小的有效群体相一致。
我们用配对关联方式在40个品种(表S5)中鉴定了35,093个结构变异,超过四分之三的这些结构变异与转座元件重叠,暗示着蚕的结构变异可能是由于转座元件造成的。
SN P,插入缺失和结构变异一起构成了蚕的遗传变异图谱。
为了突破以前的研究而阐明蚕的发生史,我们利用鉴定出来的SN P构建一个Neighbor -Joining树(图1A)。
这个系统发生树反映了品种之间的平均距离,虽然不能解释品系之间的系统发生关系,但实际上这些距离可能反映了基因的流动和其它与人类活动相关的群体水平上的作用,比如远古的商业贸易。
重要的是,这个无根的放射状树在家蚕品种和野蚕品种之间明显地分隔开,并且家蚕品种聚成几个亚群(图1A)。
经过PCA分析得到了四个显著的特征向量,第一个特征向量明显将家蚕品种和野蚕品种分开,第二个特征向量将家蚕根据化性分成几个亚群(Fig.1B,上),第二个特征向量将D01和D03(高丝量日本家蚕品种)与其它家蚕品种分开(Fig.1B,下),第四个特征向量将W01和W04与其它野蚕品种分开。
群体结构分析进一步对进化分析和PCA分析进行了确认。
家蚕与野蚕之间明显的遗传分离表明了一个单一的驯养事件以及随后在家蚕与野蚕之间相对较少的基因流动。
一个令人迷惑的现象是虽然家蚕品种在遗传上明显与野蚕品种不同,但是家蚕品种约83%的变异在野蚕中能观察到,这表明驯养过程中的群体大小瓶颈仅仅中等程度地降低遗传变异性,例如,初始驯养的时候选择大量个体或者驯养同时在许多地方进行。
为了对这一点进
行量化,我们使用一个简单的基于联合的遗传瓶颈模型来计算SN P 频率,这一模型表明驯养导致有效群体大小在起始阶段减少90%(图S2),我们在家蚕和野蚕品种之间并没有观察到大量的低频率变异,表明驯养之后并没有出现显著的群体增长,并且驯养品种可能具有一个通常稳定的有效群体大小。
图1 家蚕系统发生和种群结构的PCA 分析(A )基因组SN Ps 的NJ 进化树分析,经1000次重
复(数值小于100在弧线上显示,等于100没有显示):绿色代表所有的野生变种;其余的为家蚕
品系,被分成了三个分支(紫色、红色和黄色)。
家蚕不同品系间通过各自所代表的系统用不同的
标志(空心圈代表中国系统,星号代表日本系统,三角形代表热带系统,盒子代表欧洲系统,实心
圈代表突变系统)和样品ID (“D01”到“D29”以及“P50-ref ”是大造作为参照基因组)两种表示。
野蚕用它们的ID 表示(“
W01”到“W12”)。
碱基差异的频率在左下部用标尺标注。
(B )四个最重要组分的PCA 结果。
上区间:第一个特征向量分离出家蚕和野蚕,第二向量将家蚕分成不同
的亚群;下区间:第三向量将高丝量的日本家蚕品系D01和D03从其他家蚕中分离出来,第四向
量将野蚕中的W01和W04突变种从其他野生种中分离出来。
(彩图请参见原文———编者)
33期 夏庆友等:40个基因组完全重测序揭示蚕的驯化事件及其相关基因
图2 选择信号的基因组区域(GROSS )(A )θπ,家蚕/θπ,野蚕的2D 分布和家蚕的Tajima ’
s D 分析,5Kb 窗口,数据点位于垂直红线(Z -测试P <0.005)的左边和水平红线(Z -测试P <0.
005)的下面,这两部分的数据作为构建GROSS 的区域。
(B )GROSS 中的连锁不平衡(LD )分
析。
对于家蚕来说,GROSS 中LD 的衰退速率比基因组慢,而对于野蚕,没有观察到明显的变
化。
(C )家蚕和野蚕中GROSS 和基因组的F st 分布。
我们对成对连锁不平衡(LD )的测算表明蚕的LD 迅速衰减,家蚕和野蚕的r 2分别在大约46bp 和7bp 的距离从最大值降低到一半(图.S1),其迅速衰减暗示着受选择影响的区域相对较少。
为了检测明显受到选择的区域,我们利用全基因组范围的滑动窗口策略计算了SN P 的变异性和频率。
然而由于LD 之间的关联以及这两个群体之间共同的祖先历史,Z 检验的显著性不能直接得到解释,它们暗示着这两个群体之间变异频率和数量上的差异。
我们将候
4蚕 学 通 讯 29卷
选的区域命名为选择信号基因组区域(GROSS )。
我们总共鉴定了1,041个GROSS ,覆盖12.5Mb (2.9%)的基因组,这可能反映了基因组在驯化过程中经人工选择遗留下来的足迹。
受到选择影响的区域提高LD 的水平,在GROSS 中,LD 水平在相隔少于20Kb 的SN P 间区域,比基因组的平均水平高2.3倍,符合选择是影响基因组区域的假说。
在这些区域中,家蚕和野蚕之间的差异水平也提高了,证实了此两个不同亚群的分化。
家蚕经历了强烈的人工选择,成为了一个完全驯养的昆虫,并完全依赖人类而生存。
人工选择提高了重要的经济性状,如蚕茧大小,生长速率和消化效率。
而且,对比其野生的祖先野蚕,家蚕已经获得了一些有代表性的行为特征(例如容忍人类接近和管理以及广泛的拥挤),同时也失去了其他特性(如飞行,捕食和疾病防御)。
然而,到目前为止,还没有基因被认定为在人工选择中是受驯化的基因。
在GROSS 中,我们鉴定了354个蛋白质编码基因作为驯化的候选基因。
其GO 注释显示最多的是表示“结合”和“催化”范畴的分子功能,以及“代谢”和“细胞”的生物学过程。
结合已报道的全基因组芯片图谱,我们分析了的大造5龄3天不同组织的表达图谱,发现有159个GROSS 基因显示了不同的表达特征。
在这些基因中,其中有4、32和54个基因分别在丝腺,中肠和精巢中高量表达。
在丝腺表达基因中,丝腺因子-1(Sgf -1)是和果蝇Fkh 同源的一个基因,Sgf -1调控家蚕丝胶-1基因编码的丝胶蛋白和三个编码丝素轻链,重链和f hx/P25的丝素基因的转录。
另一个家蚕丝腺高量表达的基因是和果蝇sage 基因同源的B GIBM GA005127,它在高丝量品种中的含量是大造的4倍。
在果蝇中,Fkh 和sage 基因是协调控制丝胶基因SG1和SG2的转录,他们在丝胶蛋白的合成和分泌中起着重要的作用。
另外,分析中肠和精巢中表达的基因发现,参与能量代谢和生殖过程的基因在驯化过程中受到人工的选择。
尤其是,我们鉴定了3个人工选择的候选基因:NM_001130902是和果蝇副肌球蛋白同源的,可能和飞行有关;NM_001043506是和果蝇脂肪酰脱氢酶(desat1)同源的,可能和求偶行为有关,因为脂肪酰脱氢酶的突变能改变性信息素产生和鉴别的模式;最后,B GIB 2M GA000972是和果蝇酪氨酸蛋白激酶Bt k29A 同源的,它可能和雄性外生殖器的发育有关。
在养蚕业上,蚕主要通过他们各自的地理起源被分成不同的系统。
正如地理系统一样,化性是对生态环境适应的结果,也是最早研究蚕起源和驯化的重要依据。
我们的研究发现了单一的驯化发生事件,而化性与遗传距离相关,遗传上相近的品系并不能通过化性来区分开。
我们没有发现不同经度起源样本以及主要组分之间的相关性,但是在PCA 中发现特征向量2和4与纬度有重要的相关性。
尽管这种相关性可能归因于距离隔离,但这个结果与以前的研究一致,暗示了气候影响了蚕的生物学变化。
我们在这里报道的家蚕数据代表了目前在鳞翅目昆虫中最大的基因组测序群体数据,并提供了进化分支上近缘物种的空前的资源用于比较基因组分析。
除了推测的人工选择,我们进一步鉴定了一批与家蚕重要经济性状相关组织中高量表达的候选基因。
由于GROSS 中的一部分基因可能在蚕的驯化过程中发挥了重要的作用,因此,对这些候选基因的功能研究将有助于更好的理解家蚕和野蚕在生物学特征上的不同。
另外,家蚕已经被用于生物反应器,此研究可以为改良家蚕生产外源蛋白的容量和能力提供有用的线索。
这些发现还可以帮助了解如何在其他生物体中用一种经济安全的方式提高感兴趣的特性。
由于野蚕是有破坏性的害虫,同时也就为害虫控制提供了新的方法。
53期 夏庆友等:40个基因组完全重测序揭示蚕的驯化事件及其相关基因
6蚕 学 通 讯 29卷
参 考 文 献
[1] The International Silkworm G enome Consortium,Insect Biochem.Mol.Biol.38,1036(2008).
[2] Z.Xiang,J.Huang,J.Xia,C.L u,Biology of sericulture.(China Forestry Publishing House,Bei2
jing,2005).
[3] M.R.G oldsmith,T.Shimada,H.Abe,Annu.Rev.Entomol.50,71(2005).
[4] N.Y oshitake,Journal of Sericultural Science of J apan37,83(1967).
[5] Y.Jiang,Agricultural Archaeology14,316(1987).
[6] C.L u,H.Yu,Z.Xiang,Agricultural Sciences in China1,349(2002).
[7] Materials and Methods are available as supporting material on Science Online.
[8] R.Li,Y.Li,K.Kristiansen,J.Wang,Bioinformatics24,713(2008).
[9] R.et al.,Genome Res.19,1124(2009).
[10] G. A.Watterson,Theor.Popul.Biol.7,256(1975).
[11] J.Wang et al.,Nature456,60(2008).
[12] Q.Xia et al.,Science306,1937(2004).
[13] Q.Xia,Z.Zhou,C.L u,Z.Xiang,Acta Entomologica Sinica41,32(1998).
[14] M.Li et al.,Genome48,802(2005).
[15] R.Nielsen,Annu.Rev.G enet.39,197(2005).
[16] M.Slatkin,Nat.Rev.G enet.9,477(2008).
[17] J.Ye et al.,Nucleic Acids Res.34,W293(2006).
[18] Q.Xia et al.,Genome Biol.8,R162(2007).
[19] B.Horard,E.J ulien,P.Nony,A.G arel,P.Couble,Mol.Cell.Biol.17,1572(1997).
[20] V.Mach et al.,J.Biol.Chem.270,9340(1995).
[21] E.W.Abrams,W.K.Mihoulides,D.J.Andrew,Development133,3517(2006).
[22] T.R.Li,K.P.White,Dev.Cell5,59(2003).
[23] H.Liu et al.,Proc.Natl.Acad.Sci.U S A.102,10522(2005).
[24] F.Marcillac,Y.Grosjean,J. F.Ferveur,Proc.Biol.Sci.272,303(2005).
[25] K.Baba et al.,Mol.Cell.Biol.19,4405(1999).
[26] S.Maeda,Annu.Rev.Entomol.34,351(1989).
[27] S.Maeda et al.,Nature315,592(1985).
致谢:感谢两位匿名评委、编辑、以及古德曼、博朗德和克里斯蒂森提出了宝贵建议。
此工作由中国国家科技部(2005CB121000,2007CB815700,2006AA10A117,2006AA10A118, 2006AA02Z177,2006AA10A121)、教育部(长江学者与创新团队计划,IR T0750)、重庆市政府、111计划(B07045)、国家自然科学基金(30725008;30890032;90608010)、国际科技合作项目(0806)、中国科学院(G J HZ0701-6)、丹麦综合生物学平台计划、丹麦自然科学研究委员会和Solexa项目(272-07-0196)等支持。
原始基因组数据已提交NCBI/SRA,登录号为SRA009208。
蚕遗传变异、GROSS信息和芯片数据可访问/ silkdb/resequencing.ht ml。