05第5章 基因组序列诠释2011.10.24

合集下载

遗传学知识:基因组序列数据及其分析

遗传学知识:基因组序列数据及其分析

遗传学知识:基因组序列数据及其分析随着科技的不断发展,遗传学研究也日益深入,基因组序列数据及其分析已经成为遗传学研究的一个重要方向。

本文将就基因组序列数据及其分析进行详细介绍。

一、基因组序列数据介绍基因组序列数据是指对生物个体的基因组DNA的测序结果。

人类基因组含有约30亿个碱基对,这些碱基对的排列序列就是人类基因组的序列数据。

基因组序列数据包含着所有的基因,以及基因间的空隙及其他DNA序列,并且是人类及其他生物特征的重要组成部分。

二、基因组序列数据的类型基因组序列数据有两种类型:1.全基因组测序数据:全基因组测序数据即整个DNA序列的测序结果。

它包括所有基因,包括非编码区域。

2.外显子组测序数据:外显子组测序数据是将基因组中编码蛋白的外显子序列进行测序。

它比全基因组测序数据更细致,更方便分析。

三、基因组序列数据的分析基因组序列数据是广泛应用于研究生命活动的重要工具。

基因组序列数据的分析主要分为以下几个方面:1.基因组比对:将测序后得到的基因组序列与参考基因组对比,确定样本DNA序列,确定基因间是否有突变。

2.基因注释:对测序后的基因组序列进行注释,确定基因的位置,外显子数目,基因功能和编码蛋白的序列等信息。

3.突变检测:在基因组比对的基础上,对样本基因组序列进行突变检测,精细分析突变的类型,确定某个基因对某种疾病的影响。

4.数据挖掘:采用基因组学信息学的方法进行挖掘,如分类分析、聚类分析、关联规则挖掘等,找到病因突变、新的治疗方法等。

四、基因组序列数据在疾病研究中的应用基因组序列数据可以帮助研究者更加深入地研究疾病的原因和发生机制。

基因组序列数据在疾病研究中的应用主要有以下两个方面:1.基因突变检测基因组测序技术可以检测出突变的基因以及与该基因相关的疾病。

通过对基因的状态进行检测,可以从分子层面上了解疾病的机制,为疾病的预测和治疗提供更多的信息。

2.个性化治疗基因组测序技术为个性化治疗提供了更多的可能。

解读基因组序列

解读基因组序列

非编码区变异功能影响预测
基于转录因子结合位点的预测方法
通过分析非编码区变异对转录因子结合位点的影响,预测变异对基因表达 调控的影响。这种方法可以识别出与特定转录因子相关的关键变异。
基于长非编码RNA的预测方法
研究长非编码RNA在基因组中的功能和调控机制,分析非编码区变异对长 非编码RNA结构和功能的影响,进而预测变异对基因表达和表型的影响。
个性化医疗和精准医学发展前景
个体化治疗方案
01
基于基因组序列的解读,医生可以为患者制定个性化的治疗方
案,选择最适合的药物和剂量,提高治疗效果。
精准预防策略
02
通过分析基因组序列,可以预测个体对某些疾病的易感性,从
而制定针对性的预防措施,降低患病风险。
遗传咨询与生育指导
03
解读基因组序列可以为遗传咨询提供科学依据,帮助家庭了解
基于表观遗传学修饰的预测方法
研究表观遗传学修饰在基因组中的分布和功能,分析非编码区变异对表观 遗传学修饰的影响,进而预测变异对基因表达和细胞命运的影响。
实验验证方法介绍
01
基因编辑技术
利用CRISPR/Cas9等基因编辑技术,在细胞或个体水平上对特定基因进
行精确编辑,引入或修复变异,观察表型变化以验证变异的功能影响。
基于比对算法的SV检测方法
通过比对算法识别待测序列与参考序列之间存在大 片段的插入、缺失、倒位或易位等结构变异。
基于组装算法的SV检测 方法
利用组装算法对基因组序列进行组装,通过 比较组装结果与参考序列的差异来检测结构 变异。
05
解读基因组序列:功能影 响预测与验证
变异对蛋白质功能影响预测
基于序列比对的预测方法
02

第5章_基因组序列

第5章_基因组序列

●一对酵母的端粒序列
●选择标记 ●克隆位点
高分 子量 DNA
TEL
AmpR ARS1 EcoRI ori TRP1 CEN4 URA3
TEL
EcoRI部分消化 分子量标准 (kb)
EcoRI酶切 EcoRI EcoRI
500 400 300 200
分离400-500 kb的DNA片段
连接
100
PFGE
酵母 (Saccharomyces cerevisiae) 线虫 (Caenorhabditis elegans) 果蝇 (Drosophila melanogater) 鼠 (Mus musculus) 人类 (Homo sapiens)
拟南芥(Arabidopsis thaliana) 玉米 (Zea mays) 番茄 (Lycopersicon esculentum) 大麦 (Hordeum vulgare) 水稻 (Oryza sativa) 火炬松 (Pinus taeda)
一个方向不断变换
的电场取代单向电场, 使电泳中受阻的DNA 分子在电场改变时扭 转迁移方向,小分子
DNA比大分子DNA更
易在凝胶中重新定向, 因而迁移速度更快, 脉冲场凝胶电泳的原理
达到分离大分子DNA
的目的。
(2) DNA片段的克隆载体
所有的克隆载体都包括三种共同的组成部分,即复制 基因(replicator)、选择性标记和克隆位点。 选择载体系统时,主要考虑克隆DNA片段的大小。 质粒(plasmid): 5 kb
不同生物基因组中每厘摩的物理距离存在很大
的差异。遗传距离与物理距离的这种关系,反映了
通过遗传作图对基因物理定位的精度。该比率
(Kb/cM,单位遗传距离的碱基数)越小,基因物

第5章基因组序列诠释

第5章基因组序列诠释
异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比 例.
基因注释的方法
1. 目前基因注释的方法主要依赖于生物信息学方 面的分析结论,它们包括以下自动注释内容: 1) ab inition 软件的预测, 依据基因结构的特点. 2) 同源性比较 3) 基序(motif)或功能域(domain)分析预测基因 功能.
4) 相似性(similarity)系指同源蛋白质的氨基酸顺序中一 致性氨基酸和可取代氨基酸所占的比例. 可取代氨基酸 系指具有相同性质如极性氨基酸或非极性氨基酸的成 员, 它们之间的代换不影响蛋白质(或酶)的生物学功能.
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
人类基因的命名规则(2)
5) 和已知基因重叠并由反义链编码的基因,如IGF2AS,insulinlike growth factor 2, antisense (类胰岛素生长因子2反义 基因)。
6) 可转录但不翻译却具功能的DNA片段,如XIST, X (inactive)specific transcript (X染色体专一性失活转录物)。
3) 基因注释的软件通常容易犯误拼和误拆的错误, 即将 两个基因归在一个, 或者反过来.
4) 容易遗漏很小的外显子, 特别是保守性不强的基因.
5) 容易忽略小基因.
6) 无法预测mRNA中5’-和3-’非翻译区(UTR), 即很难确 定转录起点与终点.
不同注释软件比较
1) 目前基因组注释的软件绝大多数都是根据已 有基因结构的数据编写的,具有很多的经验成 分.

解读基因组序列

解读基因组序列
像基因定位一样,也尝试着用计算机分析和实 验研究来确定未知基因的功能。
基因功能的计算机分析
➢ 同源性搜索是通过把被研究的DNA序列与数据库 中其他所有的DNA序列进行比较来定位基因。
➢ 同源性搜索的基础是相关的基因具有相似序列, 因此可以通过与不同物种中已测序的同源基因具 有相似性来发现新基因。
▲同源性反映出进化关系
⒈通过基因失活进行功能分析
与表型有关的基因可以通过确定具有突变表型 的生物体中哪个基因是失活的而被鉴别出来。如果 起点是基因而不是表型,那么相应的策略就是进行 基因突变并确定所引起的表型改变,这是大多数用 于确定未知基因功能的技术基础。
⒉同源重组可以使单个基因失活
➢ 使特定基因失活的最简单方法是用一段无关DNA片段 将其破坏(如图5.20) 。这可以通过在基因的染色 体拷贝和另一段与靶基因有一些相同序列的DNA之间 进行同源重组来达到。现在的目的只要知道两个DNA 分子具有相似序列,重组能引起分子片段进行互换 就足够了。
“缺失盒”是含有抗生素抗性的基因,不是酵母基
因组中的正常部分,但如果转入酵母染色体中就会起 作用,就产生一种转化的对抗生素遗传霉素有抗性的 酵母细胞。运用缺失盒之前,新的DNA片段作为尾端连 接到每个末端。这些片段与要被失活的酵母基因的部 分序列相同。当改良盒导入酵母细胞后,同源重组就 在DNA末端和酵母基因的染色体拷贝之间出现,用抗生 素抗性基因代替后者。因此,通过将培养物接种到含 有遗传霉素的琼脂培养基中来筛选携带替换基因的细 胞。所产生的克隆缺少靶基因的活性,可以通过检查 它们的表型获得此基因功能的一些提示。
可进行同源性搜索分析的软件最常用的是BLAST ,只需登陆到该网站的一个DNA数据库中,将序列输 入到在线搜索工具就可以进行分析。标准的BLAST程 序能有效鉴别出序列相似性大于30%~40%的同源基因 。

人类基因组的序列分析

人类基因组的序列分析

人类基因组的序列分析随着科技的飞速发展,人类基因组的测序也顺利地进行了下来。

人类基因组的序列分析是人类基因研究领域的重要一环,它的实现对于深入了解人的遗传基础、研究人体疾病,有着非常重要的意义。

下文将探讨人类基因组的序列分析。

一、人类基因组的测序历史1990年,人类基因组计划正式启动,旨在对人类基因组进行高通量测序。

整个项目历时13年,于2003年正式完成。

这次人类基因组计划的完成,不仅仅是基因组测序技术的一次飞跃,也是人类基因研究领域的一次重大进展,为生命科学研究开辟了新的局面。

二、人类基因组的序列人类基因组是由双链DNA组成的一个复杂的大型分子,它呈现出高度的复杂性、可变性和异质性。

人类基因组是由大约3.2亿个DNA碱基对组成的。

DNA的中文名称为脱氧核糖核酸,是生命的载体,存放我们的遗传信息。

通过人类基因组的测序可以了解我们生命的基因构成,从而更好地理解我们的生命过程。

三、人类基因组的序列分析是对人类基因组的数据进行处理和分析的过程。

序列分析包括基本的序列处理、注释、比较和功能预测等步骤。

人类基因组的测序完全可以根据它的基本序列信息进行分析,并理解它所揭示的基因结构和生物学功能。

序列分析包括以下几个部分:1. 序列比对序列比对是对不同基因序列进行比较分析,从而确定基因序列间的相似性和差异性。

人类基因组的差异性十分巨大,基因序列间的比对越来越受到关注。

2. 顺式调控元件注释顺式调控元件是影响基因表达的非编码DNA区域,包括启动子、增强子、转录因子结合位点等。

对于人类基因组的功能注释,特别是基因调控方面的研究,对顺式调控元件的分析是十分重要的。

3. 基因预测和注释基因预测是序列分析的一部分,可以对基因的位置、结构和写入从头到尾的信息进行分析。

进而对人类基因的功能和表达机制进行预测。

四、人类基因组的测序技术Sanger方法Sanger法是测序技术的第一代,它是通过在DNA合成反应中加入单核苷otide发生缺失的情况,实现对DNA分子序列的测定。

基因组序列诠释共51页

基因组序列诠释共51页
6、法律的基础有礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯
基因组序列诠释
谢谢
11、越是没有本领的就越加自命不凡。——邓拓 12、越是无能的人,越喜欢挑剔别人的错儿。——爱尔兰 13、知人者智,自知者明。胜人者有力,自胜者强。——老子 14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。——歌德 15、最具挑战性的挑战莫过于提升自我。——迈克尔·F·斯特利

05基因组序列的诠释

05基因组序列的诠释
基因组序列的诠释
• 研究基因组的最终目的不是为了仅仅得到基 因组的全部序列,而是诠释基因组所包含的信息 和基因组功能。在这一部分中,我们主要探讨利 用什么方法来搜寻基因和研究基因组的功能
• 1. 在基因组中搜寻基因
– 根据顺序分析搜寻基因 – 实验分析确认基因
• 2. 基因功能的测定
4
5.1 在基因组中搜寻基因 一、根据序列分析搜寻基因
72..461 /gene="FSHB" /gene_synonym="FSH-beta" /note="follicle stimulating hormone beta-subunit; FSH-B; follitropin beta chain; follicle-stimulating hormone beta subunit; follitropin subunit beta; follitropin b
基因间存在大量非编码序列人类基因组占70由于多数外显子长度100个密码子当读码进入到内含子时很快就遇到终止密码从而难以判断读码的准确性起始密码子atg第一个atg的确定依据kozak规则kozak规则是基于已知数据的统计结果所谓kozak规则即第一个atg侧翼序列的碱基分布所满足的统计规律kozak规则
• 第4位的偏好碱基为G • ATG的5’端约15bp范围的侧翼序列内不含碱基T • 在-3,-6和-9位置,G是偏好碱基 • 除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基
10
gene CDS
1..1033 /gene="FSHB" /gene_synonym="FSH-beta" /note="follicle stimulating hormone, beta polypeptide" /db_xref="GeneID:396895"

基因组序列注释的方法

基因组序列注释的方法

谢谢!
通过物种已建立的遗传图和物理图来确定基因的位置三基因组序列注释的应用1jim工程吉姆工程是美国454生命科学公司基因技术公司在2005年前给dna之父称誉的美国科学家詹姆斯沃森绘制完整的个人基因组图谱的工作美国这家基因技术公司将相关工作所以命名为吉姆工程是因为沃森名字詹姆斯昵称吉姆
基因组序列注释的方法
2、ENCODE计划
The Encyclopedia of DNA Elements Project :即 “DNA元件百科全书计划”,简称ENCODE计划。2003年9月 由美国国立人类基因组研究所(National Human Genome Research Institute)组织的又一个重大的国际合作计划。 其目的是解码基因组的蓝图,鉴定人类基因组中包括基因、 启动子、增强子、抑制子/沉默子、内含子等已知的和还 不知功能的多个物种的保守序列等在内的所有功能元件。 ENCODE计划中提出的每一类元件都是已经被发现过的,所 不同的是现在要在全基因组的范围内进行系统的研究。

这些结果均可作为基因判定的指标,可单独用, 也可综合用。
基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms ( 信号指令 ), 如起始密码 , 终止密码 , 终止信号,多聚嘧啶顺序,分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因 组特别是超长基因的注释有很大困难 . 在一个长度数十或 数百kb的内含子中, 存在许多可能误判的信号指令. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH 则着重于信号指令 . 由于每种生物都有种属专一性的密码 子偏好 , 也存在某些非保守的信号指令 , 因此在超长基因 注释中常出现正向错误(false-positive, 多注释)或负向 错误(false-negetive, 少注释).

基因组序列诠释辽宁师范大学PPT课件

基因组序列诠释辽宁师范大学PPT课件
①基因间存在大量非编码序列(人类基因组中占70%);
②绝大多数基因含有非编码的内含子。高等真核生 物多数外显子的长度少于100个密码子,有些不到50 个密码子甚至更少,因此当读码进入内含子时很快 遇上终止密码,难以根据上述的ORF长度来判断哪 种读框是正确的。
内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描 程序时要作许多修改,必须加入一些相应的规则:
采用RACE方法可获得丢失的cDNA序,可采用cDNA末端快速扩增技术 (rapid amplification of cDNA end,RACE)方法寻找 这些丢失的末端顺序。根据残缺cDNA内部顺序先合 成一对引物,将mRNA环化后使其与引物复性,再经 PCR扩增。扩增产物再用第二对巢式引物PCR放大 ,可获得mRNA 5’-和3’-端顺序。
① 当某一基因的转录产物进行可变剪接时,由于连接 的外显子不同,会产生好几条长度不一的杂交带。此外, 如果该基因是某一多基因家族的成员,也会出现多个信 号。这两种现象要设计其他实验进一步区分。
② 基因的表达具有组织专一性及发育阶段的差别,选 择的RNA样品有时不一定含有该基因的产物。因此要 尽可能多地收集各种发育时期及不同组织器官RNA, 以免因人为原因而遗漏。
5.1.2 实验分析确认基因
任何基因都可转录为RNA拷贝,这是实验确证基因 的依据。真核生物中许多编码蛋白质的基因其转录 的初级产物都有内含子,加工后成为mRNA。根据 mRNA的顺序可以找到外显子的位置以及整个基因 的组成。由于mRNA的5’端及3’端各有一段非翻译区, 基因的转录起点与终点有时并不准确,但不妨碍整 个基因的界定。
③ 不同基因的表达产物丰度差异很大,对低拷贝的 表达产物要适当提高RNA的上样量。有些基因表达 产物丰度极低,或表达时期短暂不易提取,此时要考 虑其他检测方法。例如可根据已知的DNA顺序设计 引物从mRNA群体中扩增基因产物,再以DNA为探 针与之杂交,这一方法称为拟northern分析。

基因组序列诠释(精选)PPT共57页

基因组序列诠释(精选)PPT共57页

26、要使整个人生都过得舒适、愉快,这是不可能的,因为人类必须具备一种能应付逆境的态度。——卢梭

27、只有把抱怨环境的心情,化为上进的力量,才是成功的保证。——罗曼·罗兰

28、知之者不如好之者,好之者不如乐之者。——孔子

29、勇猛、大胆和坚定的决心能够抵得上武器的精良。——达·芬奇

30、意志是一个强壮的盲人,倚靠在明眼的跛子肩上。——叔本华
基因组序列诠释(精选)
51、山气日夕佳,飞鸟相与还。 52、木欣欣以向荣,泉涓涓而始流。
53、富贵非吾愿,帝乡不可期。 54、雄发指危冠,猛气冲长缨。 55、土地平旷,屋舍俨然,有良田美 池桑竹 之属, 阡陌交 通,鸡 犬相闻 。


谢谢!
57

结构基因组学

结构基因组学

整理课件
6
读码框(reading frame)
• 任意一段DNA序列都有6种可能的读码框。
整理课件
7
ORF的长度:
• 终止密码子: TAA, TAG, TGA
GC% = 50%,终止密码子每 64 bp出现一 次;
GC% > 50%,终止密码子每100~200 bp 出现一次;
• 由于多数基因 ORF 均多于50个密码子,因
• 结构域(domain)(功能域):蛋白质高
级结构中具有相对独立的亚结构区,通常它 们含有数个二级结构基序(motif),具有相 对独立的功能。
• 真核生物中大约80%的蛋白质,原核生物中
大约66%的蛋白质均含有多个结构域(Apic G等, )。 2001
整理课件
38
蛋白质的域结构 (domain architecture)
整理课件
28
• 在基因分类时,缺少同源序列的ORF被称为孤
独基因(orphan gene)。
• 当某一序列从数据库中无法找到同源序列,又
无法排除其是不是基因的可能性时,必须依靠 实验来进一步确认。
整理课件
29
两点说明:
• 在DNA水平上区分同源基因的难度要大于氨
基酸水平。
原因:密码子的摇摆性,相似氨基酸的取代。
生物 人类
黑猩猩 大猩猩
小鼠 狗
线虫
基因组相似性% 99.9 100 98.4 98.7 98.38 98 85 95 74
资料来源 Human Genome Project 孪生子 Americans for Medical Progress Celera Genomics Am J Hum Genet 2001, 682: 444 ~ 456. Americans for Medical Progress NHGRI Jon Entine, in the San Francisco Examiner Jon Entine, in the San Francisco Examiner

基因组序列的功能解析

基因组序列的功能解析
基因组序列的功能解析
2. 用实验确定基因功能 (1) 通过基因失活分析基因功能 “Loss of function”
将基因突变,观察由此引起的表型变化。 1)同源重组失活
基因组序列的功能解析
酵母的删除盒 用抗生素抗性基 因替换酵母的某 一处基因组序列
基因组序列的功能解析
基因敲除(knock out)小鼠 胚胎干细胞( ES cells) 注射到小鼠胚胎 嵌合体 互相交配
基因组序列的功能解析
1. 研究转录物组 鉴定细胞中的全部mRNA 的相对丰度。
转录物组学(transcriptomics ): 是一门在整体水平上研究细胞中基因转录的情 况及转录调控规律的学科.
(1)基因表达系列分析(SAGE) ① 把 mR基因组序列比较
基因 lacZ uidA lux GFP
基因产物 β-半乳糖苷酶 β-葡糖苷酸酶 荧光素酶 绿色荧光蛋白
方法 组织化学 test 组织化学 test 生物发光 荧光
基因组序列的功能解析
1)报告基定基因产物在细 胞内的位置
基因组序列的功能解析
三、 研究基因组的整体活性 研究不同组织的不同发育阶段、不同疾病的转 录物和翻译产物
基因组序列的功能解析
② 质谱 鉴定蛋白质点的性质.
基质辅助激光解吸飞行时间质谱 (MALDI-TOF): 质荷比 (Mass-to-charge ratio)分析分子量, 然后推导氨基酸组成
基因组序列的功能解析
基因组序列的功能解析
(2)鉴定蛋白质的相互作用 如果知道位置蛋白与某个已知蛋白相互作用的话, 就能推测其功能。 ① 噬菌体展示 将未知基因与噬菌体表面)部分序列分析 寻找共同拥有的结构域( domain). 结构域是序列功能的核心。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

细菌基因组中缺少内含子,非编码序列仅占11%, 细菌基因组中缺少内含子,非编码序列仅占11%, 对读框的排查干扰较少。 对读框的排查干扰较少。假定基因之间不存在重叠 顺序,也无基因内基因 基因内基因(gene-within-gene), 顺序,也无基因内基因(gene-within-gene),那么 ORF阅读出现差错的最大可能性只会发生在非编码 ORF阅读出现差错的最大可能性只会发生在非编码 细菌基因组的ORF阅读相对比较简单 阅读相对比较简单, 区。细菌基因组的ORF阅读相对比较简单,错误的 机率较少。 机率较少。 高等真核生物DNA的ORF阅读比较复杂 阅读比较复杂, 高等真核生物DNA的ORF阅读比较复杂,其原因在 于: 基因间存在大量非编码序列 人类基因组中占70%) 大量非编码序列( ①基因间存在大量非编码序列(人类基因组中占70%); 绝大多数基因含有非编码的内含子 基因含有非编码的内含子。 ②绝大多数基因含有非编码的内含子。高等真核生 物多数外显子的长度少于100个密码子 有些不到50 个密码子, 物多数外显子的长度少于100个密码子,有些不到50 个密码子甚至更少, 个密码子甚至更少,因此当读码进入内含子时很快 遇上终止密码,难以根据上述的ORF长度来判断哪 遇上终止密码,难以根据上述的ORF长度来判断哪 种读框是正确的。 种读框是正确的。
内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描 内含子的出现给计算机判读基因带来不少问题,在编写ORF扫描 规则: 程序时要作许多修改,必须加入一些相应的规则 程序时要作许多修改,必须加入一些相应的规则: 生物具有通用的64种密码子 种密码子, ①密码子偏爱 生物具有通用的64种密码子,其中三种为终止密 码子,其余61种密码子编码 种氨基酸 种密码子编码20种氨基酸, 甲硫氨酸(Met)和 码子,其余61种密码子编码20种氨基酸,除甲硫氨酸(Met)和色 氨酸(Trp)各有 个密码子外,其他氨基酸都拥有多个密码子。 各有1 氨酸(Trp)各有1个密码子外,其他氨基酸都拥有多个密码子。编 同义密码(synonym), 码同一氨基酸的不同密码子称为同义密码 码同一氨基酸的不同密码子称为同义密码(synonym),其差别仅 在密码子的第三位碱基不同。 在密码子的第三位碱基不同。不同种属之间使用同义密码的频率 有很大差异,如人类基因中,丙氨酸(Ale)密码子多为 密码子多为GCA 有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA, GCC GCT GCC或GCT,而GCG很少使用。苏氨酸(Thr)常用的密码子为 GCG很少使用。苏氨酸(Thr)常用的密码子为 ACA ACC ACT 很少用ACG 高等植物207个基因的编码 ACA,ACC或ACT,很少用ACG。高等植物207个基因的编码 顺序,其中单子叶植物基因53个 双子叶植物基因154个 分属6 顺序,其中单子叶植物基因53个,双子叶植物基因154个,分属6 个单子叶和35个双子叶种群。单子叶与双子叶主群密码子 个单子叶和35个双子叶种群。单子叶与双子叶主群密码子 个双子叶种群 (majority codon)中第三个摇摆碱基的成员比例明显不同。单子 codon)中第三个摇摆碱基的成员比例明显不同。 18种氨基酸中有 种氨基酸的密码子摇摆碱基为 种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C, 叶18种氨基酸中有16种氨基酸的密码子摇摆碱基为G+C,而双子 叶中仅有7种氨基酸的密码子摇摆碱基为G+C, 叶中仅有7种氨基酸的密码子摇摆碱基为G+C,或者说双子叶密 码子摇摆碱基大多为A+T。这一现象称为密码子偏爱 密码子偏爱(codon bias), 码子摇摆碱基大多为A+T。这一现象称为密码子偏爱(codon bias), 其产生的原因不明。特定种属有特征性的密码子偏爱, 其产生的原因不明。特定种属有特征性的密码子偏爱,这些序列 在编码区常常出现,非编码区只保持平均的碱基分布水平。 在编码区常常出现,非编码区只保持平均的碱基分布水平。根据 已有生物密码子偏爱的资科在编写相应的计算机程序时可加入这 些限制。 些限制。
搜寻基因
一旦获取基因组的DNA顺序后 不管它是来自某一 一旦获取基因组的DNA顺序后,不管它是来自某一 顺序后, 区段还是一整条染色体, 还是一整条染色体 区段还是一整条染色体,第一个任务就是从中查找 基因,这是解读整个基因组的基础。查找基因有两 基因,这是解读整个基因组的基础。查找基因有两 种常见的方法: 种常见的方法: 根据已知的顺序人工判读 计算机分析寻找与基 人工判读或 ①根据已知的顺序人工判读或计算机分析寻找与基 因有关的序列; 因有关的序列; 进行实验研究 实验研究, ②进行实验研究,看其能否表达基因产物及其对表 型的影响。 型的影响。
开放读框
基因都含有开放读框 基因都含有开放读框(open reading frames,ORFs),它们由 开放读框(open frames,ORFs) 一系列指令氨基酸的密码子 密码子(codons)组成 组成。 一系列指令氨基酸的密码子(codons)组成。开放读框有一个 起点,又称起译密码 起译密码(initiation codon):ATG;还有一个终 起点,又称起译密码(initiation codon):ATG;还有一个终 又称终止密码 终止密码(termination codon):TAA、TAG和TGA。 点,又称终止密码(termination codon):TAA、TAG和TGA。 从 DNA顺序中搜寻基因总是从第一个 ATG开始, 然后向下 DNA顺序中搜寻基因总是从第一个 顺序中搜寻基因总是从第一个ATG 开始 开始, 游寻找终止密码。 游寻找终止密码 。 在开始这项工作之前 , 我们并不知道 DNA双链中哪一条单链是编码链 或称正(+)链 DNA双链中哪一条单链是编码链,或称正(+)链,也不知道 双链中哪一条单链是编码链, 准确的转译起始点在何处。 由于每条链都有三种可能 三种可能的读 准确的转译起始点在何处 。 由于每条链都有 三种可能 的读 两条链共计6种读框,计算机可以很快给出结果。 框,两条链共计6种读框,计算机可以很快给出结果。 ORF扫描的关键是终止密码在 种读框中出现的频率。 ORF扫描的关键是终止密码在6种读框中出现的频率。如果 扫描的关键是终止密码在6 DNA的碱基排列是随机的,并且GC含量为 DNA的碱基排列是随机的,并且GC含量为50%,则三个终 的碱基排列是随机的 含量为50%, 止密码子:TAA、TAG和TGA出现的平均机率为每 止密码子:TAA、TAG和TGA出现的平均机率为每43= 出现的平均机率为每4 64bp一次 假如GC比大于 64bp一次。假如GC比大于50%,因终止密码中AT比例高, 一次。 比大于50%,因终止密码中AT比例高 比例高, 则每隔100-200bp才会出现一个终止密码 才会出现一个终止密码。 则每隔100-200bp才会出现一个终止密码。随机碱基排列的 ORF长度预计不超过 个密码子 ORF长度预计不超过50个密码子,即150bp,以ATG起始计 长度预计不超过50个密码子, 150bp, ATG起始计 算长度更短。大多数基因的ORF均多于 个密码子 均多于50个密码子, 算长度更短。大多数基因的ORF均多于50个密码子,因此 最可能的选择应该是ORF不少于 不少于100个密码子的读框 个密码子的读框。 最可能的选择应该是ORF不少于100个密码子的读框。
基因组学
辽宁师范大学生命科学学院 张剑锋
第5章 基因组序列诠释
完成基因组测序仅仅是基因组计划的第一步, 完成基因组测序仅仅是基因组计划的第一步,更大 的挑战在于弄清: 的挑战在于弄清: 基因组顺序中所包含的全部遗传信息是什么? 全部遗传信息是什么 ①基因组顺序中所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能 整体如何行使其功能? ②基因组作为一个整体如何行使其功能? 这两项任务都必须依赖于对基因组顺序的正确注解 这两项任务都必须依赖于对基因组顺序的正确注解 诠释(annotation),首先是从已知顺序中搜寻基因 从已知顺序中搜寻基因。 或诠释(annotation),首先是从已知顺序中搜寻基因。
②外显子-内含子边界(exon-intron boundaries) 外显子与内含子 外显子-内含子边界(exon的边界区有一些明显的特征 如内含子的5’端或称供体位(donor 特征, 端或称供体位 的边界区有一些明显的特征,如内含子的5’端或称供体位(donor site)常见的顺序为 -AG↓GTAAGT-3’,3’端又称 site)常见的顺序为5’-AG↓GTAAGT-3’,3’端又称受体位 常见的顺序为5’ 端又称受体位 (acceptor site)多为5’-PyPyPyPyPyPyCAG -3’(“Py”为嘧啶核苷酸, site)多为 多为5’ 3’(“Py”为嘧啶核苷酸 为嘧啶核苷酸, T或C)。这是判断编码顺序的依据之一。由于外显子-内含子边界 C)。这是判断编码顺序的依据之一。由于外显子顺序常有例外 编写通用的判读程序时有不少困难, 例外, 顺序常有例外,编写通用的判读程序时有不少困难,上述规律仅 适用一定范围。 适用一定范围。 上游控制顺序(upstream 几乎所有的基因( ③上游控制顺序(upstream control sequence) 几乎所有的基因(或 操纵子)上游都有调控序列 它们可与DNA结合蛋白 调控序列, 结合蛋白作用控制基 操纵子)上游都有调控序列,它们可与DNA结合蛋白作用控制基 因表达。调控顺序有明显特点,在查找基因时可作为参考, 因表达。调控顺序有明显特点,在查找基因时可作为参考,特别 是原核生物。真核生物基因上游的控制顺序变化较大, 是原核生物。真核生物基因上游的控制顺序变化较大,以此作为 标志判别基因时应当谨慎。 标志判别基因时应当谨慎。 上述这三种ORF扫描的方法适合所有高等真核生物基因组 扫描的方法适合所有高等真核生物基因组, 上述这三种ORF扫描的方法适合所有高等真核生物基因组,可综 合运用。还有一种针对个别生物的策略, 个别生物的策略 合运用。还有一种针对个别生物的策略,主要依据这些生物基因 特有的组成。例如脊椎动物基因组许多基因的上游都有CpG岛 脊椎动物基因组许多基因的上游都有 组特有的组成。例如脊椎动物基因组许多基因的上游都有CpG岛 (islands)。CpG岛的长度约 (islands)。CpG岛的长度约1kb,其CG比例显著高于基因组平均 岛的长度约1kb, CG比例显著高于基因组平均 水平。 56%的人类基因与上游的 的人类基因与上游的CpG岛相连 岛相连, 水平。约56%的人类基因与上游的CpG岛相连,在基因组顺序扫 描时,如发现CpG岛有可能在其下游找到基因 岛有可能在其下游找到基因。 描时,如发现CpG岛有可能在其下游找到基因。
相关文档
最新文档