生物信息学课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ Brown著,袁建刚等译,基因组,科学出版社,2002
年
➢ 郝柏林、张淑誉,生物信息学手册(第二版),上海科
学技术出版社,2002年 ➢ Mount,Bioinformatics—Sequence and Genome
Analysis,科学出版社,2002年(中文版由钟杨等译、 高等教育出版社2003年出版)
Base-pairing rule
Double helix
Oligonucleotide Chain
Synthesis direction p5’-TGC-3’OH 5’-TGC-3’
中心法则
Central Dogma of Genetics
复制
翻译
转录
基因表达 Gene Expression
5‘ 3‘
ds cDNA
ss: single stranded ds: double stranded
Relationship between Exons and Domains
Operator
Promoter
5‘
i
po
操纵子
Operon
z
y
Terminator
a
3‘
Transcription
Leader
(1962年Kennedy在Rice大学演讲)
攻克肿瘤计划 人类遗传信息的复杂性
人类基因组计划
(HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘
1、“曼哈顿原子弹计划”历史遗留问题之产物 2、对生命科学和医学的科学影响
基因决定论
生命活动三要素:物质、能量、信息
Upstream Regulatory
region
Promoter
Enhancer
DNA
Termຫໍສະໝຸດ Baidunator
5‘
1 23
45
3‘
Gene
100~200 kb (human as example)
5‘
Promoter
ORF
3‘ Monocistronic mRNA
DNA
Terminator
5‘
ORF1
Genomes http://www.genome.jp/kegg/ ➢ Biocyc:http://biocyc.org/
Basic Concepts of Gene and Genomics
From cell to gene From gene to protein
Plant Cell & Animal Cell
1 mRNA, 1 protein.
Proteins
原核细胞的基因结构
Gene Structure of Prokaryote
原核生物
Transcription initiation site
ORF1
Gene
Transcription termination site
Transcript
ORF2
ORF3
Pribnow box TATA box
互補去氧核醣核酸 Complementary DNA (cDNA)
5‘
RTase
3‘ mRNA
Reverse transcription 1st strand cDNA synthesis
3‘
RTase DNA pol
3‘ 5‘
5‘ ss cDNA
2nd strand cDNA synthesis
Bacterial Cell
染色体 Chromosome
着丝点
Kinetochore
染色体 Chromo
some
核小体One nucleosome
DNA
DNA histone core
核酸 Nucleic Acid
DNA 去氧核糖核酸 RNA 核糖核酸
5‘CACCAGAAGTCCTG3’ 3’GTGGTCTTCAGGAC5’
生物信息学 Bioinformatics
Computing and Life science
课程安排
➢ 时间:每周五上午(8:00~10:00) ➢ 教室:同和509教室 ➢ 学时:每周2学时(1-8周,总计2X8=16学时) ➢ 学分:1学分
➢ 成绩考核方式 ➢ 平时作业 30% ➢ 期末考试 70%
➢ 联系方式:E-mail: yanming@njut.edu.cn Tel: 13814091121
➢ 主要研究方向:
分子生物学与计算生物学
➢ 研究内容:
将生物信息学应用于生物催化剂的研究与开发 蛋白质工程-----酶的克隆表达与改造 代谢工程------工业用菌种的开发
➢ 招收硕士研究生
参考资料
➢ Westhead et al., Bioinformatics(英文原版),科学 出版社,2003年
➢ Pevzner,Computational Molecular Biology,MIT Press,2000
➢ Durbin等, Biological sequence analysis(英文原 版), 清华大学出版社,2002
- prokaryotic DNA -
(RBS; Shine-Dalgarno sequence)
5‘-AGGAGGU-3’
3‘-UCCUCC
16 S rRNA
5‘
Synthesis of Membranous or Secreted Proteins
Copyright © 2002 Pearson Education, Inc., publishing as Benjamin Cummings
ORF2
ORF3
3‘
Gene
Gene
Gene
Transcript 3~10 kb
5‘
ORF1
ORF2
ORF3
3‘ Polycistronic mRNA
Cistron
大肠杆菌启动子
E. Coli Promoters
The frequency of base occurrence: T80A95T45A60A50T96
Sample Contig
CONTIG = CONTIGuous sequence from overlapping consensus
GGCTCTTAGGAGATT ||||
GATTTAGTTATGTTATTGTGCAACTATC
Overlap?
||||||||||||||||||| ATGTTATTCTGCAACCATCGCTGCGGACGAATAGCTGT
Molecular Interaction
从人类基因组计划(HGP)说起
曼哈顿原子弹计划 (1942-46)
20世纪 三大科学计划
阿波罗登月计划 (1961-69)
人类基因组计划 (1990-2003)
为什么提出HGP?
1961年,美国总统Kennedy提出两个科学计划:
登月计划
“我们选择登月”
||||||||||||||||||||||||
TTGTGCAACAATCGCTGCGGACGA
111111111113452244556622233333111111122333323331113333333
GGCTCTTAGGAGATTTAGTTATGTTATTGTGCAACNATCGCTGCGGACGAATAGCTGT
http://www.ebi.ac.uk/swissprot/ ➢ ExPASy http://www.expasy.org ➢ PDB http://pdbbeta.rcsb.org/pdb/home/home.do
http://www.pdb.org ➢ KEGG: Kyoto Encyclopedia of Genes and
遗传图谱
物理图谱
序列图谱
HGP的终极目标
➢ 阐明人类基因组全部DNA序列; ➢ 识别基因及其关系; ➢ 建立储存这些信息的数据库; ➢ 开发数据分析工具; ➢ 研究HGP实施所带来的伦理、法律和社会
问题
Automating Sanger Sequencing
Assembly-line process at MIT Genome Center
Pick from plate into dishes
Bar code 384-well dishes
Grow in 2ml cultures
ABI 3700 Sequencer
Sanger rxns done in thermal cyclers Multiposition robot preps DNA
Celera: Craig Venter
Intl. Cons: Francis Collins
2001年2月15日《Nature》封面
2001年2月16日《Science》封面
人类基因组的组成
人类基因组
细胞核基因组(3200Mb)
约10%
基因和基因有关序列
约90%
基因外序列
线粒体基因组(16.6kb)
Spacer
Spacer
Spacer
i
z
y
a
Repressor
i
i
po
b-galactosidase
Permease
transacetylase
Translation
i
po
Regulation of Eukaryotic gene
遗传密码
Almost universal
Genetic Code
Ribosome binding to mRNA
What constitutes “consensus”?
运用计算机软件进行序列拼接
back
History of the Human Genome Project
1990 Official start of HGP with 3 billion $ and a 15 year horizon. 1999 Sanger Centre publishes chromosome 22 2001 Draft Genome published: Celera & Public 2003 Completion (almost) of Human Genome
Genome DNA
Transcription
Translation start site
ORF1
ORF2
ORF3
Translation
mRNAs
Proteins
1 transcript, many proteins.
1 mRNA, many proteins.
Gene Structure
Eukaryote vs Prokaryote
DNA: 遗传物质(遗传信息的载体) 双螺旋结构
A, C, G, T四种基本字符的复杂文本
分子生物学中心法则
基因组 一个物种中所有基因的整体组成
HGP的最初目标
➢ 通过国际合作,用15年时间(1990~2005) 至少投入30亿美元,构建详细的人类基因 组遗传图和物理图谱,确定人类DNA的全 部核苷酸序列,定位约10万基因,并对其 它生物进行类似研究。几类图谱:
➢ Pevsner J.著,孙之荣等译,生物信息学与功能基因组 学,化学工业出版社,2006年
网络资源
➢ NCBI HomePage http://www.ncbi.nlm.nih.gov/ ➢ EBI Homepage http://www.ebi.ac.uk/ ➢ SWISS-PROT + TrEMBL Home Page
5r
Transcription
23 4 5
An
1‘ 2 3 5‘ An
Genome DNA
mRNAs
Liver cells Alterative products
9% 91%
1 gene, many proteins.
Translation
Neurons Alterative products
82% 18%
Copyright © 2002 Pearson Education, Inc., publishing as Benjamin Cummings
真核细胞的基因结构 Gene Structure of Eukaryote
真核生物
5’-UTR
1r
Cap 1 Cap
Gene
Exon
Intron
23
4
3’-UTR
核苷酸
核苷
Nucleotide & Nucleoside
Phosphate group
Ribose or deoxyribose
Nucleoside
RNA
DNA
碱基 Base of Nucleoside
嘌呤
嘧啶
RNA
DNA
G
鳥嘌呤
A
腺嘌呤
C
胞嘧啶
U
T
尿嘧啶 胸腺嘧啶
碱基间氢键
Hydrogen Bonding between Bases
rRNA 基因
tRNA 蛋白编码
基因
基因
专一或中等重复序列
<10%
>90%
70~80%
专一的或低 拷贝数序列
Coding DNA Non-coding DNA
假基因
基因片段 内含子
20~30%
中度至高度重复序列
约60%
串联重复序列/ 成簇重复序列
约40%
分散重复序列
The Human Genome Project
年
➢ 郝柏林、张淑誉,生物信息学手册(第二版),上海科
学技术出版社,2002年 ➢ Mount,Bioinformatics—Sequence and Genome
Analysis,科学出版社,2002年(中文版由钟杨等译、 高等教育出版社2003年出版)
Base-pairing rule
Double helix
Oligonucleotide Chain
Synthesis direction p5’-TGC-3’OH 5’-TGC-3’
中心法则
Central Dogma of Genetics
复制
翻译
转录
基因表达 Gene Expression
5‘ 3‘
ds cDNA
ss: single stranded ds: double stranded
Relationship between Exons and Domains
Operator
Promoter
5‘
i
po
操纵子
Operon
z
y
Terminator
a
3‘
Transcription
Leader
(1962年Kennedy在Rice大学演讲)
攻克肿瘤计划 人类遗传信息的复杂性
人类基因组计划
(HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘
1、“曼哈顿原子弹计划”历史遗留问题之产物 2、对生命科学和医学的科学影响
基因决定论
生命活动三要素:物质、能量、信息
Upstream Regulatory
region
Promoter
Enhancer
DNA
Termຫໍສະໝຸດ Baidunator
5‘
1 23
45
3‘
Gene
100~200 kb (human as example)
5‘
Promoter
ORF
3‘ Monocistronic mRNA
DNA
Terminator
5‘
ORF1
Genomes http://www.genome.jp/kegg/ ➢ Biocyc:http://biocyc.org/
Basic Concepts of Gene and Genomics
From cell to gene From gene to protein
Plant Cell & Animal Cell
1 mRNA, 1 protein.
Proteins
原核细胞的基因结构
Gene Structure of Prokaryote
原核生物
Transcription initiation site
ORF1
Gene
Transcription termination site
Transcript
ORF2
ORF3
Pribnow box TATA box
互補去氧核醣核酸 Complementary DNA (cDNA)
5‘
RTase
3‘ mRNA
Reverse transcription 1st strand cDNA synthesis
3‘
RTase DNA pol
3‘ 5‘
5‘ ss cDNA
2nd strand cDNA synthesis
Bacterial Cell
染色体 Chromosome
着丝点
Kinetochore
染色体 Chromo
some
核小体One nucleosome
DNA
DNA histone core
核酸 Nucleic Acid
DNA 去氧核糖核酸 RNA 核糖核酸
5‘CACCAGAAGTCCTG3’ 3’GTGGTCTTCAGGAC5’
生物信息学 Bioinformatics
Computing and Life science
课程安排
➢ 时间:每周五上午(8:00~10:00) ➢ 教室:同和509教室 ➢ 学时:每周2学时(1-8周,总计2X8=16学时) ➢ 学分:1学分
➢ 成绩考核方式 ➢ 平时作业 30% ➢ 期末考试 70%
➢ 联系方式:E-mail: yanming@njut.edu.cn Tel: 13814091121
➢ 主要研究方向:
分子生物学与计算生物学
➢ 研究内容:
将生物信息学应用于生物催化剂的研究与开发 蛋白质工程-----酶的克隆表达与改造 代谢工程------工业用菌种的开发
➢ 招收硕士研究生
参考资料
➢ Westhead et al., Bioinformatics(英文原版),科学 出版社,2003年
➢ Pevzner,Computational Molecular Biology,MIT Press,2000
➢ Durbin等, Biological sequence analysis(英文原 版), 清华大学出版社,2002
- prokaryotic DNA -
(RBS; Shine-Dalgarno sequence)
5‘-AGGAGGU-3’
3‘-UCCUCC
16 S rRNA
5‘
Synthesis of Membranous or Secreted Proteins
Copyright © 2002 Pearson Education, Inc., publishing as Benjamin Cummings
ORF2
ORF3
3‘
Gene
Gene
Gene
Transcript 3~10 kb
5‘
ORF1
ORF2
ORF3
3‘ Polycistronic mRNA
Cistron
大肠杆菌启动子
E. Coli Promoters
The frequency of base occurrence: T80A95T45A60A50T96
Sample Contig
CONTIG = CONTIGuous sequence from overlapping consensus
GGCTCTTAGGAGATT ||||
GATTTAGTTATGTTATTGTGCAACTATC
Overlap?
||||||||||||||||||| ATGTTATTCTGCAACCATCGCTGCGGACGAATAGCTGT
Molecular Interaction
从人类基因组计划(HGP)说起
曼哈顿原子弹计划 (1942-46)
20世纪 三大科学计划
阿波罗登月计划 (1961-69)
人类基因组计划 (1990-2003)
为什么提出HGP?
1961年,美国总统Kennedy提出两个科学计划:
登月计划
“我们选择登月”
||||||||||||||||||||||||
TTGTGCAACAATCGCTGCGGACGA
111111111113452244556622233333111111122333323331113333333
GGCTCTTAGGAGATTTAGTTATGTTATTGTGCAACNATCGCTGCGGACGAATAGCTGT
http://www.ebi.ac.uk/swissprot/ ➢ ExPASy http://www.expasy.org ➢ PDB http://pdbbeta.rcsb.org/pdb/home/home.do
http://www.pdb.org ➢ KEGG: Kyoto Encyclopedia of Genes and
遗传图谱
物理图谱
序列图谱
HGP的终极目标
➢ 阐明人类基因组全部DNA序列; ➢ 识别基因及其关系; ➢ 建立储存这些信息的数据库; ➢ 开发数据分析工具; ➢ 研究HGP实施所带来的伦理、法律和社会
问题
Automating Sanger Sequencing
Assembly-line process at MIT Genome Center
Pick from plate into dishes
Bar code 384-well dishes
Grow in 2ml cultures
ABI 3700 Sequencer
Sanger rxns done in thermal cyclers Multiposition robot preps DNA
Celera: Craig Venter
Intl. Cons: Francis Collins
2001年2月15日《Nature》封面
2001年2月16日《Science》封面
人类基因组的组成
人类基因组
细胞核基因组(3200Mb)
约10%
基因和基因有关序列
约90%
基因外序列
线粒体基因组(16.6kb)
Spacer
Spacer
Spacer
i
z
y
a
Repressor
i
i
po
b-galactosidase
Permease
transacetylase
Translation
i
po
Regulation of Eukaryotic gene
遗传密码
Almost universal
Genetic Code
Ribosome binding to mRNA
What constitutes “consensus”?
运用计算机软件进行序列拼接
back
History of the Human Genome Project
1990 Official start of HGP with 3 billion $ and a 15 year horizon. 1999 Sanger Centre publishes chromosome 22 2001 Draft Genome published: Celera & Public 2003 Completion (almost) of Human Genome
Genome DNA
Transcription
Translation start site
ORF1
ORF2
ORF3
Translation
mRNAs
Proteins
1 transcript, many proteins.
1 mRNA, many proteins.
Gene Structure
Eukaryote vs Prokaryote
DNA: 遗传物质(遗传信息的载体) 双螺旋结构
A, C, G, T四种基本字符的复杂文本
分子生物学中心法则
基因组 一个物种中所有基因的整体组成
HGP的最初目标
➢ 通过国际合作,用15年时间(1990~2005) 至少投入30亿美元,构建详细的人类基因 组遗传图和物理图谱,确定人类DNA的全 部核苷酸序列,定位约10万基因,并对其 它生物进行类似研究。几类图谱:
➢ Pevsner J.著,孙之荣等译,生物信息学与功能基因组 学,化学工业出版社,2006年
网络资源
➢ NCBI HomePage http://www.ncbi.nlm.nih.gov/ ➢ EBI Homepage http://www.ebi.ac.uk/ ➢ SWISS-PROT + TrEMBL Home Page
5r
Transcription
23 4 5
An
1‘ 2 3 5‘ An
Genome DNA
mRNAs
Liver cells Alterative products
9% 91%
1 gene, many proteins.
Translation
Neurons Alterative products
82% 18%
Copyright © 2002 Pearson Education, Inc., publishing as Benjamin Cummings
真核细胞的基因结构 Gene Structure of Eukaryote
真核生物
5’-UTR
1r
Cap 1 Cap
Gene
Exon
Intron
23
4
3’-UTR
核苷酸
核苷
Nucleotide & Nucleoside
Phosphate group
Ribose or deoxyribose
Nucleoside
RNA
DNA
碱基 Base of Nucleoside
嘌呤
嘧啶
RNA
DNA
G
鳥嘌呤
A
腺嘌呤
C
胞嘧啶
U
T
尿嘧啶 胸腺嘧啶
碱基间氢键
Hydrogen Bonding between Bases
rRNA 基因
tRNA 蛋白编码
基因
基因
专一或中等重复序列
<10%
>90%
70~80%
专一的或低 拷贝数序列
Coding DNA Non-coding DNA
假基因
基因片段 内含子
20~30%
中度至高度重复序列
约60%
串联重复序列/ 成簇重复序列
约40%
分散重复序列
The Human Genome Project