原核生物基因组2010
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lacY
Enzyme
Beta galactosidase (LacZ) Lactose Permease (LacY) Thiogalactosidase transacetylase (LacA)
Function
水解糖键产生半乳糖 与 葡萄糖
协助乳糖进入细胞内
lacZ
未知
乳糖操作子的表达机制
lac 启动子的强启动需要乳糖的诱 导和低浓度的葡萄糖
基因分析
• 缺乏三羧酸循环中的三种酶,柠檬酸合 成酶、异柠檬酸脱氢酶和乌头酸酶 • 致病性分析
– 血清型b菌株,在pepN和purE基因之间有8个 与侵染相关的伞毛基因;非致病菌株则是 172bp的间隔区。
水平基因转移
• 水平基因转移(Horizontal Gene Transfer,HGT)定义
基因功能的确定
• 生物信息学分析方法 • 实验生物学方法
– DNA芯片技术 – 蛋白质二维电泳 – 大规模基因转导技术 – ….
大肠杆菌基因组
• 用于基因组全序列测定的大肠杆菌的菌 株为K-12MG1655,采用这个菌株的理由 是它的遗传操作很少,比较能代表K-12 的本来面目。它只经过紫外线和丫啶橙 处理,消除了λ噬菌体和F质粒。
细菌的水平基因转移
• 广泛存在,如药物抗性 • 三种主要水平基因转移的机制
– 转化 – 转导 – 结合
转导
结合过程
• 供体产生菌毛 (pilus) • 菌毛与受体细胞 相互作用 • 转移性质粒产生 缺口,单链DNA 进入受体细胞 • 转移性质粒二链 合成,两个细胞 都成为供体细胞
HGT的鉴定
• G-C倾斜问题。
– 通过序列分析,先导链中G的含量(26.22%) 明显高于C的含量(24.69%),差异显著 (P<0.001)。GC倾斜问题遍及整个基因 组,不论复制的起始区、编码区、还是密码 子的各位碱基,只要处于先导链上,G-C倾 斜都很明显 – 先导链和后续链复制机制所导致?
• 从全序列分析的结果来看,发现了6个 前所未知的tRNA基因,其中四个是 lysT操纵子的一部分。在这四个基因 中,valZ是valT的重复,lysY、lysZ和 lysQ是lysW的重复;另两个基因独立 转录,其中asnW是asnT的重复, ileY和 已经知道的ileX只有一个碱基的差异。 • 这6个新发现的tRNA究竟有什么功能 呢?
重叠方式
• 重叠操纵子
– 如大肠杆菌中frdA B C D的frd D基因C端10个氨 基酸伸入ampC基因的启动区中。
• 同向重叠基因
• 反向重叠基因
同向异相位重叠基因
• 上游基因的终止密码子和下游基因起始密码子重叠 (UAAAUG),核糖体无需重新组装。如trpE, trpD • 上游基因的终止密码子位于下游基因核糖体结合区 域中。如galT, galK。 • 下游基因从上游基因中间起始
重叠基因(overlapping gene)
• 定义
– 是指两个或两个以上的基因共有一段 DNA序列,或是指一段DNA序列成为 两个或两个以上基因的共同组成部分。
• 发现
– 1978年Sanger分析了ΦX174DNA全序 列后,发现它由5386个核苷酸组成, 共9个基因,编码2000个氨基酸
Phi X174的基因重叠
• 系统发生分析
– 根据特定基因同源性建立的进化 树与经典进化树之间的差异。
• 核苷酸组成与密码子选择 • 基因组织分析
– 在远缘基因组中3个或更多的基因 以相同的次序存在的几率极低。
A B C
A’
B’
C’
HGT发生的范围
• 广泛存在 • 转移是多方向的 • 对微生物基因组进化 的贡献存在争议。
– 细菌基因组比较如大 肠杆菌O157:H7与大 肠杆菌K12发现基因 组序列的显著差异。
基本情况
• 基因组共有4639221bp,基因组呈环状存 在,在全序列中,87.8%编码蛋白质, 0.8%编码稳定性RNA,0.7%是没有编码 功能的重复序列,其余11%属于调节序 列或具有其他功能。87.8%编码蛋白质的 序列总共编码4288种蛋白质,在这其 中,38%的功能不明。
大肠杆菌基因组序列测定所提 出的一些问题
病毒的HGT
• 法国科学家Raoult, Koonin 发现变形虫病毒 及卫星病毒 Sputnik
Giant mamavirus particles (red) and satellite viruses of mamavirus called Sputnik (green).
Giant mamavirus有近千个基因 Sputnik有21个基因,感染后会阻止该病毒工厂的病 毒生产,类似病毒噬菌体(virophage ) Sputnik 的13个基因与已知的基因没有同源性,3个 与Giant mamavirus有高度同源性
Head to head
Tail to Tail
真核生物也存在重叠基因现象
线粒体的重叠基因现象
• ATPase 8:8366~8569 • ATPase 6 :8527~9204
原核生物基因组学
• 人类基因组计划与原核生物基因组(微生物基因组)学 • 原核生物基因组学的意义:
– 为人类基因组计划的实现提供一些新的方法和策略。 – 序列信息为解决一些重大生物学问题如生命起源和生物进化 提供了帮助 – 对生态学而言,大量构成生物圈食物链最底层的微生物序列 的测定,对于从分子水平研究生态平衡和保护生物圈有着重 要意义。 – 对于病理学和药物学而言,致病菌的基因组资料可以为研究 和鉴定相关毒力基因,进而阐明微生物的致病机理提供了新 的思路和材料,最终为发现和设计新的抗微生物药物奠定基 础。 – 为原核生物遗传学的研究提供了新的思路。
– 又称横向水平转移[Lateral gene transfer (LGT)], ,是指不同生物个体之间,或者是 单个细胞内部细胞器之间所进行的遗传物质 的交流。
水平基因转移的主要历史
• 1959日本科学家首次报道了不同细菌之间抗药 性基因的水平转移 • 80年代中期, Syvanen认为水平基因转移在地 球生命早期的进化过程中发挥重要作用 • 1999年Jain, Rivera and Lake根据基因和基因组 数据分析结果认为,水平基因转移在细菌中大 量存在 • 水平基因转移也存在于植物和哺乳动物中, 2007 Richardson和Palmer 认为,水平基因转移 在植物和哺乳动物中的重要性仍然不清楚。
5386Nt;11ORF;2327AA 功能 viral strand synthesis shut off host DNA synthesis capsid morphogenesis / DNA maturation capsid morphogenesis cell lysis protein core protein major coat protein major spike protein minor spike protein
编译读框的确定
• 开放阅读框架(ORF)的确定
– 可以采用1996年美国国家生物信息中心 (NCBI)提供的组合程序Squin发现阅读框 架,翻译后可以提供6种不同的阅读框架, 并能表明ORF所在的位置。
• 确定ORF是否为蛋白编码序列
– 查询数据库 – 检查用码倾向性 – 检查功能位点
• 生物信息学分析的ORF存在假阳性与假阴 性。
编码的基因
• 编码基因
– 1743种蛋白质,其中389种全新;347种有同 源序列,但功能未知。
• tRNA基因
– A合成酶
• rRNA基因
– 有多份,形成rRNA操作子。16S-23S-5S, 每份结构相似但又不完全相同,高GC含量 (50%)
真细菌 Aquifex aeolicus Bacillus subtilis Synechocytis Escherichia coli 古细菌基因 (含量%) 246(16.2%) 207(5%) 126(4%) 99(2.3%)
同向同相位重叠基因
• 所编码的蛋白质只是长短不同,氨 基酸排列顺序完全一样。
– 如RNA噬菌体MS2的基因C因终止密码 子读通得到A1蛋白质,在StrA宿主中 无A1。 – Tn5转座子的P2蛋白比P1蛋白N端少40 个氨基酸,P1是转座酶,P2是转座酶 的竞争性抑制物。
反向重叠基因
• 方向重叠基因是由于两股DNA都具 有编码功能
– GC,AT含量均匀;G(19%),C(19%),A(31%),T(31%) – 少数富含GC,AT区。富含GC区为6个rRNA操纵子和Mu 样噬菌体,GC含量在40~50%之间;富含AT区AT含量超 过64%.
• 复制起点
– 280bp,4个九聚体和3个十三聚体,类似于大肠杆菌。
• 复制终止子
– 位于复制起点对面,两个23bp的终止序列ter,10bp的核 心序列与大肠杆菌相同
微生物基因组的全序列采用荧光标记的双脱氧自动测序 法 • 一般来说,序列测定的总数为总染色体长度的 5-10倍。据泊松分布理论:
– – – – 未测序列的概率P0=e-m 总缺口长度Lgap=Le-m 平均缺口长度Lave=L/n 其中m为序列覆盖率,n为随机测序的片段数,L为 基因组长度。
• 以1.83Mb流感嗜血杆菌为例,假设一次 测序的有效长度为480bp则
m 1 5 10 P0 36.7% 0.67% 0.0045% Ngap ~1400 ~120 ~2 Lave 480bp 96bp 48
位置 3981~5386&1~136 4497~5386&1~136 5075~5386&1~51 51~221 133~393 390~848 568~843 848~964 1001~2284 2395~2922 2931~3917 氨基酸 513 341 120 56 86 152 91 38 427 175 328
原核生物基因组
• 原核生物与真核生物 • 生物进化的二界论与三界论
– 真细菌,古细菌,真核生物
原核生物基因组的特点
• • • • • • • • 无细胞核 小 一般只存在一条染色体 重复序列少 相关基因高度集中,往往形成操纵子 不存在内含子 一般有固定的复制起点 ….
原核与真核生物的细胞结构
原核与真核生物基因组大小
流感嗜血杆菌
• 流感嗜血杆菌(Haemophilus influenzae) 是不能运动、革兰氏阴性的小细菌。以 人为宿主,位于呼吸道黏膜上,致病菌 株能引发呼吸道感染。 • 是第一个用随机测序法完成全序列测定 的细菌。 • 全序列分析采用的是H. influenzae菌株 KW20
基因组概括
• 环状,1,830,137bp • GC含量
从理论上讲,即使覆盖率很高,仍然存在缺口。
缺口填补和序列组装
• 序列组装目前有比较成熟的软件,但需 要高性能的计算机。组装以后,往往存 在缺口。缺口的填补才是微生物序列测 定的关键。一般有一下一些办法连接法
• 当所有的缺口被填补以后,基因组序列 的测定即告完成。
• 大肠杆菌存在用6种酶组成的一条代谢途 径,来降解苯丙酸等芳香族化合物,但以 前只知道mphB和mphE两个基因。通过相 似性原则,在全序列种找到了一个以 mphA为首的操纵子,mphA以后依次为 mphB, mphC, mphD和mphE基因,这些基 因排列次序和代谢途径中酶的作用次序完 全一致,这些基因位于367835-373095之 间,其上游的366811-367758位置很可能 是这个操纵子的调节区,其序列和很多调 节区的序列相似。
细菌基因组结构_染色质
细菌染色体数目与形状
操纵子
• 许多功能相关的基因排列在一起,其转录受 同一启动子控制,称为操纵子。
– 大肠杆菌色氨酸操纵子trpEDCBA – 乳糖操纵子lacIZYA
• 操纵子现象只占少数
– 2个基因(16.6%);4个基因(4%) ,单基因 (>70%)
Lac operon
Enzyme
Beta galactosidase (LacZ) Lactose Permease (LacY) Thiogalactosidase transacetylase (LacA)
Function
水解糖键产生半乳糖 与 葡萄糖
协助乳糖进入细胞内
lacZ
未知
乳糖操作子的表达机制
lac 启动子的强启动需要乳糖的诱 导和低浓度的葡萄糖
基因分析
• 缺乏三羧酸循环中的三种酶,柠檬酸合 成酶、异柠檬酸脱氢酶和乌头酸酶 • 致病性分析
– 血清型b菌株,在pepN和purE基因之间有8个 与侵染相关的伞毛基因;非致病菌株则是 172bp的间隔区。
水平基因转移
• 水平基因转移(Horizontal Gene Transfer,HGT)定义
基因功能的确定
• 生物信息学分析方法 • 实验生物学方法
– DNA芯片技术 – 蛋白质二维电泳 – 大规模基因转导技术 – ….
大肠杆菌基因组
• 用于基因组全序列测定的大肠杆菌的菌 株为K-12MG1655,采用这个菌株的理由 是它的遗传操作很少,比较能代表K-12 的本来面目。它只经过紫外线和丫啶橙 处理,消除了λ噬菌体和F质粒。
细菌的水平基因转移
• 广泛存在,如药物抗性 • 三种主要水平基因转移的机制
– 转化 – 转导 – 结合
转导
结合过程
• 供体产生菌毛 (pilus) • 菌毛与受体细胞 相互作用 • 转移性质粒产生 缺口,单链DNA 进入受体细胞 • 转移性质粒二链 合成,两个细胞 都成为供体细胞
HGT的鉴定
• G-C倾斜问题。
– 通过序列分析,先导链中G的含量(26.22%) 明显高于C的含量(24.69%),差异显著 (P<0.001)。GC倾斜问题遍及整个基因 组,不论复制的起始区、编码区、还是密码 子的各位碱基,只要处于先导链上,G-C倾 斜都很明显 – 先导链和后续链复制机制所导致?
• 从全序列分析的结果来看,发现了6个 前所未知的tRNA基因,其中四个是 lysT操纵子的一部分。在这四个基因 中,valZ是valT的重复,lysY、lysZ和 lysQ是lysW的重复;另两个基因独立 转录,其中asnW是asnT的重复, ileY和 已经知道的ileX只有一个碱基的差异。 • 这6个新发现的tRNA究竟有什么功能 呢?
重叠方式
• 重叠操纵子
– 如大肠杆菌中frdA B C D的frd D基因C端10个氨 基酸伸入ampC基因的启动区中。
• 同向重叠基因
• 反向重叠基因
同向异相位重叠基因
• 上游基因的终止密码子和下游基因起始密码子重叠 (UAAAUG),核糖体无需重新组装。如trpE, trpD • 上游基因的终止密码子位于下游基因核糖体结合区 域中。如galT, galK。 • 下游基因从上游基因中间起始
重叠基因(overlapping gene)
• 定义
– 是指两个或两个以上的基因共有一段 DNA序列,或是指一段DNA序列成为 两个或两个以上基因的共同组成部分。
• 发现
– 1978年Sanger分析了ΦX174DNA全序 列后,发现它由5386个核苷酸组成, 共9个基因,编码2000个氨基酸
Phi X174的基因重叠
• 系统发生分析
– 根据特定基因同源性建立的进化 树与经典进化树之间的差异。
• 核苷酸组成与密码子选择 • 基因组织分析
– 在远缘基因组中3个或更多的基因 以相同的次序存在的几率极低。
A B C
A’
B’
C’
HGT发生的范围
• 广泛存在 • 转移是多方向的 • 对微生物基因组进化 的贡献存在争议。
– 细菌基因组比较如大 肠杆菌O157:H7与大 肠杆菌K12发现基因 组序列的显著差异。
基本情况
• 基因组共有4639221bp,基因组呈环状存 在,在全序列中,87.8%编码蛋白质, 0.8%编码稳定性RNA,0.7%是没有编码 功能的重复序列,其余11%属于调节序 列或具有其他功能。87.8%编码蛋白质的 序列总共编码4288种蛋白质,在这其 中,38%的功能不明。
大肠杆菌基因组序列测定所提 出的一些问题
病毒的HGT
• 法国科学家Raoult, Koonin 发现变形虫病毒 及卫星病毒 Sputnik
Giant mamavirus particles (red) and satellite viruses of mamavirus called Sputnik (green).
Giant mamavirus有近千个基因 Sputnik有21个基因,感染后会阻止该病毒工厂的病 毒生产,类似病毒噬菌体(virophage ) Sputnik 的13个基因与已知的基因没有同源性,3个 与Giant mamavirus有高度同源性
Head to head
Tail to Tail
真核生物也存在重叠基因现象
线粒体的重叠基因现象
• ATPase 8:8366~8569 • ATPase 6 :8527~9204
原核生物基因组学
• 人类基因组计划与原核生物基因组(微生物基因组)学 • 原核生物基因组学的意义:
– 为人类基因组计划的实现提供一些新的方法和策略。 – 序列信息为解决一些重大生物学问题如生命起源和生物进化 提供了帮助 – 对生态学而言,大量构成生物圈食物链最底层的微生物序列 的测定,对于从分子水平研究生态平衡和保护生物圈有着重 要意义。 – 对于病理学和药物学而言,致病菌的基因组资料可以为研究 和鉴定相关毒力基因,进而阐明微生物的致病机理提供了新 的思路和材料,最终为发现和设计新的抗微生物药物奠定基 础。 – 为原核生物遗传学的研究提供了新的思路。
– 又称横向水平转移[Lateral gene transfer (LGT)], ,是指不同生物个体之间,或者是 单个细胞内部细胞器之间所进行的遗传物质 的交流。
水平基因转移的主要历史
• 1959日本科学家首次报道了不同细菌之间抗药 性基因的水平转移 • 80年代中期, Syvanen认为水平基因转移在地 球生命早期的进化过程中发挥重要作用 • 1999年Jain, Rivera and Lake根据基因和基因组 数据分析结果认为,水平基因转移在细菌中大 量存在 • 水平基因转移也存在于植物和哺乳动物中, 2007 Richardson和Palmer 认为,水平基因转移 在植物和哺乳动物中的重要性仍然不清楚。
5386Nt;11ORF;2327AA 功能 viral strand synthesis shut off host DNA synthesis capsid morphogenesis / DNA maturation capsid morphogenesis cell lysis protein core protein major coat protein major spike protein minor spike protein
编译读框的确定
• 开放阅读框架(ORF)的确定
– 可以采用1996年美国国家生物信息中心 (NCBI)提供的组合程序Squin发现阅读框 架,翻译后可以提供6种不同的阅读框架, 并能表明ORF所在的位置。
• 确定ORF是否为蛋白编码序列
– 查询数据库 – 检查用码倾向性 – 检查功能位点
• 生物信息学分析的ORF存在假阳性与假阴 性。
编码的基因
• 编码基因
– 1743种蛋白质,其中389种全新;347种有同 源序列,但功能未知。
• tRNA基因
– A合成酶
• rRNA基因
– 有多份,形成rRNA操作子。16S-23S-5S, 每份结构相似但又不完全相同,高GC含量 (50%)
真细菌 Aquifex aeolicus Bacillus subtilis Synechocytis Escherichia coli 古细菌基因 (含量%) 246(16.2%) 207(5%) 126(4%) 99(2.3%)
同向同相位重叠基因
• 所编码的蛋白质只是长短不同,氨 基酸排列顺序完全一样。
– 如RNA噬菌体MS2的基因C因终止密码 子读通得到A1蛋白质,在StrA宿主中 无A1。 – Tn5转座子的P2蛋白比P1蛋白N端少40 个氨基酸,P1是转座酶,P2是转座酶 的竞争性抑制物。
反向重叠基因
• 方向重叠基因是由于两股DNA都具 有编码功能
– GC,AT含量均匀;G(19%),C(19%),A(31%),T(31%) – 少数富含GC,AT区。富含GC区为6个rRNA操纵子和Mu 样噬菌体,GC含量在40~50%之间;富含AT区AT含量超 过64%.
• 复制起点
– 280bp,4个九聚体和3个十三聚体,类似于大肠杆菌。
• 复制终止子
– 位于复制起点对面,两个23bp的终止序列ter,10bp的核 心序列与大肠杆菌相同
微生物基因组的全序列采用荧光标记的双脱氧自动测序 法 • 一般来说,序列测定的总数为总染色体长度的 5-10倍。据泊松分布理论:
– – – – 未测序列的概率P0=e-m 总缺口长度Lgap=Le-m 平均缺口长度Lave=L/n 其中m为序列覆盖率,n为随机测序的片段数,L为 基因组长度。
• 以1.83Mb流感嗜血杆菌为例,假设一次 测序的有效长度为480bp则
m 1 5 10 P0 36.7% 0.67% 0.0045% Ngap ~1400 ~120 ~2 Lave 480bp 96bp 48
位置 3981~5386&1~136 4497~5386&1~136 5075~5386&1~51 51~221 133~393 390~848 568~843 848~964 1001~2284 2395~2922 2931~3917 氨基酸 513 341 120 56 86 152 91 38 427 175 328
原核生物基因组
• 原核生物与真核生物 • 生物进化的二界论与三界论
– 真细菌,古细菌,真核生物
原核生物基因组的特点
• • • • • • • • 无细胞核 小 一般只存在一条染色体 重复序列少 相关基因高度集中,往往形成操纵子 不存在内含子 一般有固定的复制起点 ….
原核与真核生物的细胞结构
原核与真核生物基因组大小
流感嗜血杆菌
• 流感嗜血杆菌(Haemophilus influenzae) 是不能运动、革兰氏阴性的小细菌。以 人为宿主,位于呼吸道黏膜上,致病菌 株能引发呼吸道感染。 • 是第一个用随机测序法完成全序列测定 的细菌。 • 全序列分析采用的是H. influenzae菌株 KW20
基因组概括
• 环状,1,830,137bp • GC含量
从理论上讲,即使覆盖率很高,仍然存在缺口。
缺口填补和序列组装
• 序列组装目前有比较成熟的软件,但需 要高性能的计算机。组装以后,往往存 在缺口。缺口的填补才是微生物序列测 定的关键。一般有一下一些办法连接法
• 当所有的缺口被填补以后,基因组序列 的测定即告完成。
• 大肠杆菌存在用6种酶组成的一条代谢途 径,来降解苯丙酸等芳香族化合物,但以 前只知道mphB和mphE两个基因。通过相 似性原则,在全序列种找到了一个以 mphA为首的操纵子,mphA以后依次为 mphB, mphC, mphD和mphE基因,这些基 因排列次序和代谢途径中酶的作用次序完 全一致,这些基因位于367835-373095之 间,其上游的366811-367758位置很可能 是这个操纵子的调节区,其序列和很多调 节区的序列相似。
细菌基因组结构_染色质
细菌染色体数目与形状
操纵子
• 许多功能相关的基因排列在一起,其转录受 同一启动子控制,称为操纵子。
– 大肠杆菌色氨酸操纵子trpEDCBA – 乳糖操纵子lacIZYA
• 操纵子现象只占少数
– 2个基因(16.6%);4个基因(4%) ,单基因 (>70%)
Lac operon