水稻(籼稻)全基因组框架序列研究简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
!
基因组比较
在水稻和拟南芥基因组水平的比较分析中, 发现了令人惊讶的不对称性。约 @O 0 ?G 的拟南芥基因
在水稻中都有其同源基因, 同源性的平均长度为蛋白质长度的 @O 0 $G , 并且在氨基酸水平上具有 ?O 0 OG 的相似性。相反, 水稻预测基因中仅仅 A! 0 AG 的基因能够在拟南芥中找到其同源基因。其同源基因的 平均长度为蛋白质长度的 == 0 @G , 并且在氨基酸水平上只有 >= 0 @G 的相似性。这是水稻中组分梯度效 应的又一个重要影响。在拟南芥内部基因是高度重复的, 而水稻和它的同源的基因的重复的方式是类 似的。
中的全基因组序列草图的绘制 ( -./01.0,234: 。籼稻在中国与东南亚广 &%’()% *( ++,( (*+(,%) )3 5 32, 2##2) 泛种植。我们分析的籼稻品种 3$6"" 就是袁隆平院士培育的超级杂交水稻两优培 ( 的父本。 3 *783) 水稻基因组全长 %44 &’, 包含有 %4#22 5 99#"9 个基因。在已测序的序列中功能区占 32 ( #: 。通过 长度为 2# 个核苷酸的序列检索发现在全基因组中大约 %2 ( 2: 的序列是重复序列, 并且大部分的转座子 位于基因间区域。在水稻基因组的全景分析以及与拟南芥基因组的比较分析的同时, 我们还分析了植 物和人在基因组水平上的差异以及水稻基因在 ;< 含量、 密码子使用和氨基酸使用上的梯度效应。这种 单子叶植物区别于双子叶植物的梯度效应很可能是造成大约一半的水稻预测基因在拟南芥中找不着同 源序列, 而有同源的另一半几乎是拟南芥基因的复制品的原因。 我们采用的是全基因组鸟枪法测序:将基因组 =>? 随机打碎成一定长度的片段, 通过全自动测序 仪读取片段的序列, 然后将产生的片断进行正确有序的组装。为了克服大数据量和高重复序列含量造 成的困难, 我们采用自己设计和编程的序列拼接软件包 @08( ;01A&0 @0+0BC.D,"2:E2% 5 E$", 。拼 2##2) 接得到的大于 2 F’ 的 =>? 序列已全部递交公共数据库 ( DGG,: ,并且整个水稻基 ! ! HHH( 1.’/( 1I&( 1/D( JAK) 因组序列都可以从我们的网站 ( DGG,: 直接下载。 ! ! ’G1( J01A&/.+( ACJ( .1 ! C/.0 ) 我们一共构建了 99 个 3$6"" 和培矮 4%(两优培 3 的母本) 的 ,IB+&/L 文库, 其克隆插入片段平均为 2 成功率为 E%: 。其中 F’。对总共 2)9 万个 ,IB+&/L =>? 克隆进行了两端测序得到了 %42 万次测序反应, 3$6"" 基因组得到 $9) 万次测序反应数据。质量达到 M2# 以上的读出序列平均长度为 9%4 ’,。用 @08包鉴定并屏蔽重复序列和进行组装 (此软件在用 8DCB, 拼接以前, 屏蔽了 2# 个碱基水平上的重复序列, 以减少错误连接的可能性, 用正反向克隆的信息填补重复序列屏蔽所留下的 “洞” ( JB,) , 并 8DCB, 拼接后, “跨洞” 构建 “骨架图” ( -.BNNAIL)共组装了 >9# (覆盖 9#: 全基因组序列的 .A1G/J 长度) 为 4 ( 43 F’ 的 .A1G/J+ 总长 $4" &’,这些 .A1G/J+ 连接成了 >9# 为 "" ( )4 O’ 的 +.BNNAIL+ "#$, 总长为 $42 P’。 "2), 99# 个, #%% 个, 对其我们进行了如下分析:
"
"期
丛丽娟等:水稻 (籼稻) 全基因组框架序列
"@$
的单子叶植物基因存在, 而双子叶植物基因没有。 将我们 !"#$$ 的 组 装 结 果 进 行 %&’(’)* 基 因 预 测 ( +,,-: . . ///0 123,4’5560 728 . 4’5560 -+,89? ,2-:7 ; , 返回结果表明有 =>?>! 个预测基因。其中, 包括起始外显子与终止外显子的完整基因总共 >""!@ &3:(<) 个。我们通过两方面的证据来证实预测基因的可靠性。第一, 我们用预测基因和 @=@AB 个 C)D1 组装的 BA==? 条 E(:F’(’ 的集合进行了碱基序列比较。结果有 == 0 "G 的集合能在 %F’(’)* 预测的基因中找到。 第二, 预测基因的平均编码区长度为 "B@ 个氨基酸, 是拟南芥中预测基因编码区 (平均 AA? 残基) 的 而且在我们计算只包括起始和终止外显子的完Fra Baidu bibliotek基因平均编码区长度时, 这种情况仍然存在。 =" 0 >G 。 相信与组成上的 FH 梯度效应有关。 单独的外显子或内含子 FH 含量对基因组长度的作图表明, 大多数的差异来自基因内部 FH 含量的 差异。人类基因组中, 大的基因在平均水平上比小的基因 ID 富集。相应的, 在水稻中, 我们发现几乎每 一个基因中 (包括大的基因) 至少有一个 FH 含量特别高的外显子。但是沿着转录方向作蛋白质编码区 的 FH 含量图, 即起始于 >’ 末端, 发现水稻基因中的负梯度效应。这些梯度效应会从 >’ 端开始大约延伸 至 $J4 的地方消失。不同基因之间梯度效应程度差别很大, 一些基因出现零梯度, 但未发现基因有正梯 度效应。比较拟南芥基因, 却没有发现这样的梯度效应。对一些水稻和拟南芥的同源基因的研究表明, 在沿着编码方向的所有位置上, 水稻基因的 FH 含量都等于或超过它们在拟南芥中的同源基因。 此后我们对水稻的 >""!@ 个完整基因进行 K(,’5L52 和 F’(’ M(,292&6 H2(125,:N8 分类, 共有 $> 0 !G 和 BO 0 AG 的基因得以分类。
基因组分析
基因组 ;< 的平均含量在原核细胞生物和真核细胞生物之间有很大差异, ;< 含量的局部异质性也
有巨大变化, 人类染色体组中的变化范围介于 24: 至 49: 之间。相比较而言, (嘌呤含量) 较稳 ?; 含量 定, 只在平均值 9#: 左右有较小波动。拟南芥、 水稻和人类基因组中序列组分的主要不同可以在基因组 通过在 9## ’, 的窗口里计算 ;< 含量并绘图, 我们发现在拟南芥的 ;< 分布中 ;< 含量的分布上观察到: 富含 ?Q 的一侧形成一个 “ +DARIL0C” , 代表着基因间区域的 =>? 的性质, 而水稻和人类基因组中未发现, 但却发现富含 ;< 的一侧有一个 “ GB/I” 。为进一步了解这些特征, 我们绘制了外显子和内含子 ;< 含量的 分布图, 结果表明水稻基因组分布图中富含 ;< 的 “ GB/I” 来源于外显子。水稻的外显子展现出一个富含 “ GB/I” , 但是水稻的内含子却没有。造成这种现象的主要原因是水稻基因在从 9S 端开始的 ;< 含量 ;< 的 水平上存在梯度效应, 而且在所使用的密码子和氨基酸水平上也存在梯度效应。这种特性只是在所有
植物学通报
($) : 2##2,!" $E# 5 $E"
!"#$%&% ’())%*#$ +, ’+*-$.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # " !!!!!!" 动态与信息
"
多态性研究
通过两个分别来自籼稻和粳稻的重叠 PIH1 的比较, 结果显示, 在总体水平上, 高度相似的数千碱基
大小的区域分散在毫无相似性的数千碱基大小的区域中, 也就是说同源区域与非同源区域相互间隔。 我们发现在每一个比对不上的区域都与一个 QRS1 (数学意义上的重复序列) 簇相对应, 其长度由 O 0 = J4 到 B> J4 不等, 并且插入和缺失的比例几乎相等。能被识别的 PRS1 (生物学意义上的重复序列) 序列占 比对不上的区域的一半, 估计为它们是位于基因间区域的巢式逆转座子; 在核苷酸水平上, 除去比对不 上的区域, 我们根据 QRS1 和唯一性序列上的多态性比率, 划分为单核苷酸多态性 ( )TL1) 和插入#缺失多 态性 ( :(<’91) 。重复序列区域的变异频率是唯一性序列区域变异频率的两倍。 水稻基因组序列草图的完成有着重大的意义。水稻基因组序列中含有高产、 抗虫病、 耐旱涝、 抗倒 伏等性状的遗传信息。分析水稻基因组序列, 对改善水稻品质、 提高水稻产量有着重要的作用。 目前我们完成的只是草图, 我们准备通过构建更多大的插入片段克隆来改善我们的序列草图, 弥补 所有的可能包含有基因的 “洞” , 并且借助现有的物理和遗传图谱将通过测序获得的序列进行整合, 得到 更加精确的完成图。
!!!!!!" !
水稻 (籼稻) 全基因组框架序列研究简介
丛丽娟 李 蔚 杨焕明
(北京华大基因研究中心 ! 中国科学院基因组信息学中心 北京 "#"$##)
水稻为世界一半以上的人口提供了主要食物。水稻基因组的常染色质部分长约 %$# 个 &’, 是拟南 芥基因组长度的 $ ( ) 倍, 约为人类基因组长度的七分之一。我们最近完成了水稻的籼亚种— — — ( !"#$%