Lec 4 DNA序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(problem of exponential growth...)
How can computers keep up?
New Types of Biological Data
• Microarrays - gene expression
• Multi-level maps: genetic, physical, sequence, annotation • Networks of protein-protein interactions
• 一个嘌呤基与一个嘧啶基通 过氢键联结成一个碱基对。 • DNA分子的方向性
– 5'→3'
DNA(3)
• DNA的双螺旋结构
碱基对之间的互补能力
DNA(4)
• DNA的复制
– 在DNA解旋酶的作用 下两条链分离开,分 别作为一个模板,在 聚合酶的作用下合成 一条新链。
DNA-遗传密码的携带者
• Cross-species relationships
• Homologous genes • Chromosome organization
DNA Sequencing
Automated sequencers > 40 KB per day 500 bp reads must be assembled into complete genes
复制
DNA
转录 逆转录 RNA 复制 蛋白质
翻译
中心法则总结了生物体内遗传信息的流动规律,揭示遗传的分子基础,不仅使人们对 细胞的生长、发育、遗传、变异等生命现象有了更深刻的认识,而且以这方面的理论和技 术为基础发展了基因工程,给人类的生产和生活带来了深刻的革命。
基 因 (Gene)
• 什么是基因?
DNA上具有特定功能的一个片断,负责一种 性状的表达。一般来讲,一个基因只编码一 蛋白质。 Gene: The basic biological unit of heredity. A segment of DNA needed to contribute to a function.
DNA上的基因
RNA、转录和翻译
• RNA (Ribonucleic acid,核糖核酸):单链 结构、尿嘧啶U代替胸腺嘧啶T、位于细胞 核和细胞质中。 • 转录:DNA链 → RNA链 信使RNA(mRNA),启动子。 • 翻译: mRNA上携带遗传信息在核糖体中 合成蛋白质的过程。
变异
• 进化过程中由于不正确的复制,使DNA内 容发生局部的改变。 • 变异的种类主要有以下三种:
三、基因结构与DNA序列
Gene structure and DNA sequence
基因表达调控
Gene Expression and Regulation
• 生物的遗传信息是以基因的形式储藏在细胞 内的DNA(或RNA)分子中的。随着个体的发育, DNA有序地将遗传信息,通过转录和翻译的 过程转变成蛋白质,执行各种生理生化功能, 完成生命的全过程。 • 从DNA到蛋白质的过程,叫做基因表达 (gene expression),对这个过程的调节就称 为基因表达调控(gene regulation或gene control)。
Prokaryotic Gene Expression
Promoter Cistron1 Cistron2 CistronN Terminator
RNA Polymerase 3’ 1 Translation
C N
Transcription mRNA 5’ 2
N Ribosome, tRNAs, Protein Factors
• 磷酸盐(phosphate) • 戊糖(pentose) • 一种碱基(base)
– – – – 腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine)
DNA(2)
• 碱基的配对原则
– A(腺嘌呤)—T(胸腺嘧啶) – C(鸟嘌呤)—G(胞嘧啶)
二、DNA序列分析的意义
Significance of DNA sequence analysis
The Human Genome Project
The genome sequence is complete
—— approximately 3.2 billion base pairs.
The next step is obviously to locate all of the genes and describe their functions. This will probably take another 15-20 years or even longer!
第四章 DNA序列分析
一、背景知识 二、DNA序列分析的意义 三、基因结构与DNA序列 四、DNA序列分析及其工具
一、背景知识(background) DNA (Deoxyribonucleicacid) 脱氧核糖核酸
DNA(1) 脱氧核糖核酸
• DNA的分子组成
– 核苷酸(nucleotides)
从DNA到蛋白质
遗传信息传递的 中心法则
生物的遗传信息以密码的形式储存 在DNA分子上,表现为特定的核苷酸排 列顺序。在细胞分裂的过程中 ,通过 DNA复制把亲代细胞所含的遗传信息忠 实地传递给两个子代细胞。在子代细胞 的生长发育过程中,这些遗传信息通过 转录传递给RNA,再由RNA通过翻译转 变成相应的蛋白质多肽链上的氨基酸排 列顺序,由蛋白质执行各种各样的生物 学功能,使后代表现出与亲代相似的遗 传特征。后来人们又发现,在宿主细胞 中一些RNA病毒能以自己的RNA为模板 复制出新的病毒RNA,还有一些RNA病 毒能以其RNA为模板合成DNA,称为逆 转录这是中心法则的补充。
—— The huge dataset Lots of new sequences being added
- autoLeabharlann Baiduated sequencers - Human Genome Project - EST sequencing GenBank
has over 16 Billion bases and is doubling every year!!
• 任何一条染色体上都带有许多基因,一条 高等生物的染色体上可能带有成千上万个 基因,一个细胞中的全部基因序列及其间 隔序列统称为genomes(基因组)。 • 基因组就是一个单倍体细胞的所有DNA组 成,或者一个双倍体细胞DNA组成的一半。
基因组学(Genomics)
• 基因组学是对基因组进行研究的科学。 • 基因组学包括了庞大的数据集(人类基因 组约30亿个碱基对)以及高通量 (highthroughput) 的方法,i.e. 快速获取数 据的方法。 • 基因组学领域包括DNA测序、在物种内进 行基因组多样性的采集以及基因转录调控 的研究。
C N C
N
1
2 Polypeptides
3
原核生物基因的典型结构
翻译起始位点(AUG) 翻译终止位点
开放阅读框
转录起始位点
转录终止位点
启动子元件:
① -10 元件:TATAAT ② -35元件:TTGCA ③ 特定启动子的变异 ④ +1:G 或 A ⑤ 各种相关因子的结合位点 -10和-35元件区是RNA聚合酶与启动子 的结合位点。
Implications for Biomedicine
• Physicians will use genetic information to diagnose and treat disease
• Virtually all medical conditions have a genetic component.
Bacterial Promoter
-35 T82T84G78A65C54A45… (16-18 bp)… T80A95T45A60A50T96…(A,G) -10 +1
Alternate sigma factors CCCTTGAA….CCCGATNT
转录终止信号:
1. 终止位点上游一般存 在一个富含GC碱基的 二重对称区,由这段 DNA转录产生的RNA 容易形成发卡式结构。 2.在终止位点前面有一 段由4-8个A组成的序 列,所以转录产物的3‘ 端为寡聚U。
ORFs
如果所有的密码子在随机DNA序列中 以相同的频率出现,则不含终止密码子, 且长为N个密码子的序列出现的几率为:
nnGGAGGnnnnnATG… typical E. coli nnaaAGGnnnnnATG
开放阅读框
(open reading frame,ORF)
• 一个起始密码子(通常是ATG)和终止密 码子(有三种形式:TAA、TAG和TGA) 之间的序列。 • 开放阅读框是基因序列的一部分,包含一 段可以编码蛋白的碱基序列,不能被终止 子打断。
- errors especially insertions and deletions
- error rate is highest at the ends where we want to overlap the reads - vector sequences must be removed from ends
ORF Characteristics
• No STOPS! • Codon bias • Biased nucleotide distribution
–periodicity of 3 –dicodon frequency
ORF识别
• ORF识别包括检测这六个阅读框架并决定 哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或密码子, 符合这些条件的序列有可能对应一个真正 的单一的基因产物。 • ORF的识别是证明一个新的DNA序列为特 定的蛋白质编码基因的部分或全部的先决 条件。
• Faster drug development research
• Individualized drugs • Gene therapy
• All Biologists will use gene sequence information in their daily work
Bioinformatics Challenges
Faster sequencing relies on better software
- overlapping deletions vs. shotgun approaches: TIGR
Finding Genes in genome Sequence is Not Easy
• About 2% of human DNA encodes functional genes. • Genes are interspersed among long stretches of non-coding DNA. • Repeats, pseudo-genes, and introns confound matters
茎环结构后 跟随一串U
Terminators
• Stem/loop
– structural only
• 3’-U tail Rho-independent
• C-rich • G-poor • “loose” consensus Rho-dependent
Translation
Ribosome Binding Site, ShineDalgarno Site
基因
基因的编码(gene coding)
• 基因编码是一个逻辑的映射,表明存储在 DNA和mRNA中的基因信息决定什么样的 蛋白质序列。 • 每个碱基三元组称为一个密码子(codon) • 碱基组成的三元组的排列共有43=64种, 而氨基酸共有20种类型,所以不同的密码 子可能表示同一种氨基酸。
基因组(Genome)
– 替代(substitution) – 插入或删除(insertion or deletion) – 重排(rearrangement)
蛋白质
• 由氨基酸依次链接形成,在生物体中总共 有20种氨基酸。 • 蛋白质具有十分复杂的三维结构,其三维 结构决定了蛋白质的功能。
引自Neil Campbell著Biology第4版,1996
How can computers keep up?
New Types of Biological Data
• Microarrays - gene expression
• Multi-level maps: genetic, physical, sequence, annotation • Networks of protein-protein interactions
• 一个嘌呤基与一个嘧啶基通 过氢键联结成一个碱基对。 • DNA分子的方向性
– 5'→3'
DNA(3)
• DNA的双螺旋结构
碱基对之间的互补能力
DNA(4)
• DNA的复制
– 在DNA解旋酶的作用 下两条链分离开,分 别作为一个模板,在 聚合酶的作用下合成 一条新链。
DNA-遗传密码的携带者
• Cross-species relationships
• Homologous genes • Chromosome organization
DNA Sequencing
Automated sequencers > 40 KB per day 500 bp reads must be assembled into complete genes
复制
DNA
转录 逆转录 RNA 复制 蛋白质
翻译
中心法则总结了生物体内遗传信息的流动规律,揭示遗传的分子基础,不仅使人们对 细胞的生长、发育、遗传、变异等生命现象有了更深刻的认识,而且以这方面的理论和技 术为基础发展了基因工程,给人类的生产和生活带来了深刻的革命。
基 因 (Gene)
• 什么是基因?
DNA上具有特定功能的一个片断,负责一种 性状的表达。一般来讲,一个基因只编码一 蛋白质。 Gene: The basic biological unit of heredity. A segment of DNA needed to contribute to a function.
DNA上的基因
RNA、转录和翻译
• RNA (Ribonucleic acid,核糖核酸):单链 结构、尿嘧啶U代替胸腺嘧啶T、位于细胞 核和细胞质中。 • 转录:DNA链 → RNA链 信使RNA(mRNA),启动子。 • 翻译: mRNA上携带遗传信息在核糖体中 合成蛋白质的过程。
变异
• 进化过程中由于不正确的复制,使DNA内 容发生局部的改变。 • 变异的种类主要有以下三种:
三、基因结构与DNA序列
Gene structure and DNA sequence
基因表达调控
Gene Expression and Regulation
• 生物的遗传信息是以基因的形式储藏在细胞 内的DNA(或RNA)分子中的。随着个体的发育, DNA有序地将遗传信息,通过转录和翻译的 过程转变成蛋白质,执行各种生理生化功能, 完成生命的全过程。 • 从DNA到蛋白质的过程,叫做基因表达 (gene expression),对这个过程的调节就称 为基因表达调控(gene regulation或gene control)。
Prokaryotic Gene Expression
Promoter Cistron1 Cistron2 CistronN Terminator
RNA Polymerase 3’ 1 Translation
C N
Transcription mRNA 5’ 2
N Ribosome, tRNAs, Protein Factors
• 磷酸盐(phosphate) • 戊糖(pentose) • 一种碱基(base)
– – – – 腺嘌呤(Adenine) 鸟嘌呤(Guanine) 胞嘧啶(Cytosine) 胸腺嘧啶(Thymine)
DNA(2)
• 碱基的配对原则
– A(腺嘌呤)—T(胸腺嘧啶) – C(鸟嘌呤)—G(胞嘧啶)
二、DNA序列分析的意义
Significance of DNA sequence analysis
The Human Genome Project
The genome sequence is complete
—— approximately 3.2 billion base pairs.
The next step is obviously to locate all of the genes and describe their functions. This will probably take another 15-20 years or even longer!
第四章 DNA序列分析
一、背景知识 二、DNA序列分析的意义 三、基因结构与DNA序列 四、DNA序列分析及其工具
一、背景知识(background) DNA (Deoxyribonucleicacid) 脱氧核糖核酸
DNA(1) 脱氧核糖核酸
• DNA的分子组成
– 核苷酸(nucleotides)
从DNA到蛋白质
遗传信息传递的 中心法则
生物的遗传信息以密码的形式储存 在DNA分子上,表现为特定的核苷酸排 列顺序。在细胞分裂的过程中 ,通过 DNA复制把亲代细胞所含的遗传信息忠 实地传递给两个子代细胞。在子代细胞 的生长发育过程中,这些遗传信息通过 转录传递给RNA,再由RNA通过翻译转 变成相应的蛋白质多肽链上的氨基酸排 列顺序,由蛋白质执行各种各样的生物 学功能,使后代表现出与亲代相似的遗 传特征。后来人们又发现,在宿主细胞 中一些RNA病毒能以自己的RNA为模板 复制出新的病毒RNA,还有一些RNA病 毒能以其RNA为模板合成DNA,称为逆 转录这是中心法则的补充。
—— The huge dataset Lots of new sequences being added
- autoLeabharlann Baiduated sequencers - Human Genome Project - EST sequencing GenBank
has over 16 Billion bases and is doubling every year!!
• 任何一条染色体上都带有许多基因,一条 高等生物的染色体上可能带有成千上万个 基因,一个细胞中的全部基因序列及其间 隔序列统称为genomes(基因组)。 • 基因组就是一个单倍体细胞的所有DNA组 成,或者一个双倍体细胞DNA组成的一半。
基因组学(Genomics)
• 基因组学是对基因组进行研究的科学。 • 基因组学包括了庞大的数据集(人类基因 组约30亿个碱基对)以及高通量 (highthroughput) 的方法,i.e. 快速获取数 据的方法。 • 基因组学领域包括DNA测序、在物种内进 行基因组多样性的采集以及基因转录调控 的研究。
C N C
N
1
2 Polypeptides
3
原核生物基因的典型结构
翻译起始位点(AUG) 翻译终止位点
开放阅读框
转录起始位点
转录终止位点
启动子元件:
① -10 元件:TATAAT ② -35元件:TTGCA ③ 特定启动子的变异 ④ +1:G 或 A ⑤ 各种相关因子的结合位点 -10和-35元件区是RNA聚合酶与启动子 的结合位点。
Implications for Biomedicine
• Physicians will use genetic information to diagnose and treat disease
• Virtually all medical conditions have a genetic component.
Bacterial Promoter
-35 T82T84G78A65C54A45… (16-18 bp)… T80A95T45A60A50T96…(A,G) -10 +1
Alternate sigma factors CCCTTGAA….CCCGATNT
转录终止信号:
1. 终止位点上游一般存 在一个富含GC碱基的 二重对称区,由这段 DNA转录产生的RNA 容易形成发卡式结构。 2.在终止位点前面有一 段由4-8个A组成的序 列,所以转录产物的3‘ 端为寡聚U。
ORFs
如果所有的密码子在随机DNA序列中 以相同的频率出现,则不含终止密码子, 且长为N个密码子的序列出现的几率为:
nnGGAGGnnnnnATG… typical E. coli nnaaAGGnnnnnATG
开放阅读框
(open reading frame,ORF)
• 一个起始密码子(通常是ATG)和终止密 码子(有三种形式:TAA、TAG和TGA) 之间的序列。 • 开放阅读框是基因序列的一部分,包含一 段可以编码蛋白的碱基序列,不能被终止 子打断。
- errors especially insertions and deletions
- error rate is highest at the ends where we want to overlap the reads - vector sequences must be removed from ends
ORF Characteristics
• No STOPS! • Codon bias • Biased nucleotide distribution
–periodicity of 3 –dicodon frequency
ORF识别
• ORF识别包括检测这六个阅读框架并决定 哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或密码子, 符合这些条件的序列有可能对应一个真正 的单一的基因产物。 • ORF的识别是证明一个新的DNA序列为特 定的蛋白质编码基因的部分或全部的先决 条件。
• Faster drug development research
• Individualized drugs • Gene therapy
• All Biologists will use gene sequence information in their daily work
Bioinformatics Challenges
Faster sequencing relies on better software
- overlapping deletions vs. shotgun approaches: TIGR
Finding Genes in genome Sequence is Not Easy
• About 2% of human DNA encodes functional genes. • Genes are interspersed among long stretches of non-coding DNA. • Repeats, pseudo-genes, and introns confound matters
茎环结构后 跟随一串U
Terminators
• Stem/loop
– structural only
• 3’-U tail Rho-independent
• C-rich • G-poor • “loose” consensus Rho-dependent
Translation
Ribosome Binding Site, ShineDalgarno Site
基因
基因的编码(gene coding)
• 基因编码是一个逻辑的映射,表明存储在 DNA和mRNA中的基因信息决定什么样的 蛋白质序列。 • 每个碱基三元组称为一个密码子(codon) • 碱基组成的三元组的排列共有43=64种, 而氨基酸共有20种类型,所以不同的密码 子可能表示同一种氨基酸。
基因组(Genome)
– 替代(substitution) – 插入或删除(insertion or deletion) – 重排(rearrangement)
蛋白质
• 由氨基酸依次链接形成,在生物体中总共 有20种氨基酸。 • 蛋白质具有十分复杂的三维结构,其三维 结构决定了蛋白质的功能。
引自Neil Campbell著Biology第4版,1996