基因组注释详解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
The Sequencing Shake up!!
ILMN launches gene expression arrays
ABI commercializes first automated DNA sequencer
Hapmap project launched
ILMN bought Roche GS FLX Solexa; launched launches GA
2007 2008
200Gb-300Gb
10,000.00
13 years ~$3,000,000,000
1,000.00
100.00
Moore’s Law
10.00
1.00
20-30Gb 3Gb 6Gb
2009 2010
0.10
0.01
0.001 1990 2001 2007 2010 2012
更低的价格使得基于测序的科研和临床应用越来越被接受
GENESCAN
S e q u e n c e
GENEMARK
…
Blastn Fasta Homology Search
开放阅读框 ORF
(Open Reading Frame)
一段序列 从起始密码子(start codon)开始, 到终止 密码子(stop codon)结束,而且其中不包含其它终 止密码子。
<2 weeks ~$1,000
成熟的二代测序技术平台
Roche / 454 Genome Sequencer FLX 500 Mb / run
Illumina / Solexa/GIIx Genetic Analyzer 50~95GB / run Illumina / Solexa/HiSeq 200GB / run
Applied Biosystems SOLiD4 100GB / run Applied Biosystems SOLiD/HQ 300GB / run
高通Βιβλιοθήκη Baidu测序服务
未知基因组测序(De novo genome sequencing)
实 验 数据分析 序列预处理(质量控制) 基因组拼接(基于reference拼接) 注释(基因功能、代谢通路、比较基因组) SNP发现及注释 Mate Pair 测序构建Scaffold 30X的覆盖率 (454&(Solexa or SOLiD))
两种测序策略:
基于BAC的方法:
先把基因组打碎成200-300kb的片段并制成BAC文
库,再选择一些BAC进一步打碎成3kb左右的小片段,
测序并拼接。
全基因组鸟枪法:
把基因组直接打碎成3kb左右的小片段,测序并拼接。
基于BAC的方法
全基因组DNA 随机打成大片段 选择并克隆 大片段排序,选择 再打碎,克隆,测序, 拼接
Human Genome Project & Celera Genomics completes first draft genome
Hapmap 1st phase data release ABI SOLiD 1.0 Launched!
Low hanging fruit: cystic fibrosis mutation identified
ILMN HiSeq 2000 launched 2008 2009 2010 In the coming future
1981
1986
1989
1991
1994
1998
2000
2002
2003
2005
2006
2007
Rise of Genbank databases from DNA sequencing
实 验 数据分析 序列预处理(质量控制) 甲基化位点检测及注释 30X以上的覆盖率 (Solexa or SOLiD)
高通量测序服务
转录组测序 (RNA-seq sequencing)
实 验 数据分析 序列预处理(质量控制) 表达丰度统计 注释(功能、代谢通路、表达差异比较) 未知转录本的分析 mRNA打断、反转录、加接头 De novo 454 构建转录图谱 Reference barcode建库 Solexa,SOLiD
The 3rd Generation Sequencing will be launched
测序技术的发展带来测序价格的下降
Innovation of NGS throughput
$M
100,000.00
Cost of per Human Genome
Throughput (Gb)
240 120 100 80 60 40 20 0
外显子捕获测序(Target exome capture)
实 验 数据分析 序列预处理(质量控制) 基因组分型技术 SNP、Indel、CNV、染色体结构变异及注释 与表型相关的全基因组关联分析和功能连锁性分析 >30X的覆盖率 (Solexa or SOLiD)
全基因组甲基化测序(DNA methylation sequencing)
GETORF:Advanced Options
ii.最小的开放阅读框由多少个核甘酸组成,预设值为30,也就 是10个氨基酸。 iii.Type of output:可选择不同的输入结果,包含有: (1)Translation of regions between STOP codons (2)Translation of regions between START and STOP codons (3)Nucleic sequences between STOP codons (4)Nucleic sequences between START and STOP codons (5)Nucleotides flanking START codons (6)Nucleotides flanking initial STOP codons (7)Nucleotides flanking ending STOP codons
fasta gcg phylip embl swiss ncbi nbrf genbank ig codata strider acedb staden text fitch msf clustal phylip phylip3 asn1
基因组重测序(Whole genome resequencing)
实 验 数据分析 序列预处理(质量控制) 基因组分型技术 SNP、Indel、CNV、染色体结构变异及注释 与表型相关的全基因组关联分析和功能连锁性分析 30X以上的覆盖率 (Solexa or SOLiD)
高通量测序服务
WebAccess http://bioweb.pasteur.fr/seqanal/interfaces/ getorf.html
Application(Download Emboss)
GETORF:Advanced Options
i. Code to use:选择不同的codon usage table,包含有: (1)Standard (2)Standard (with alternative initiation codons) (3)Vertebrate Mitochondrial (4)Yeast Mitochondrial (5)Mold, Protozoan, Coelenterate Mitochondrial and Mycoplasma/Spiroplasma (6)Invertebrate Mitochondrial (7)Ciliate Macronuclear and Dasycladacean (8)Echinoderm Mitochondrial (9)Euplotid Nuclear (10)Bacterial (11)Alternative Yeast Nuclear (12)Ascidian Mitochondrial (13)Flatworm Mitochondrial (14)Blepharisma Macronuclear (15)Chlorophycean Mitochondrial (16)Trematode Mitochondrial (17)Scenedesmus obliquus (18)Thraustochytrium Mitochondrial
实 DNA提取、建库 验 数据分析 序列预处理(质量控制) 拼接、注释(功能、代谢通路) 丰度统计、比较元基因组
未知病毒检测(Unknown virus detecting)
实 验 数据分析 与宿主、微生物、病毒数据库比较 未知病毒的发现及预测 低量RNA、DNA处理、建库
3700 DNA Analyzer in Human Genome Project; DNA sequencing goes industrial
Rise of Genome Wide Association Studies (GWAS)
SOLiD 3.0: 100GB out of the box!
全基因组鸟枪法
基因组DNA
随机打碎
测序并拼接
拼接软件的新需求
能充分利用正反向测序的配对信息, 避免重复序列造成的错 误拼接 能处理数以百万甚至千万计的数据
程序并行化 高效率比对 能逐步拼接
基因组注释
Gene Prediction ORF Finder
Protein Annotation
GENESCAN
S e q u e n c e
GENEMARK
…
Blastn Fasta Homology Search
原核( Prokaryote)基因
被转录区 起始密码子 5’ 编码区 非翻译区 启动子 转录起始位点 转录终止位点 3’ 终止密码子
上游
下游
基因组注释
Gene Prediction ORF Finder
基因组注释
基因组测序相关技术发展
Affy launches Gene Expression microarrays First microarray publication - on Arabidopsis Affy & ILMN both launched 100K genotyping arrays
Physical&Chemical Para (PI/MW,EXTCOEF) Domain Identify (HMMER,BLIMPS) Predicted Gene Or Gene Transmembrane (TMAP,TMHMM) Localization Sites (Psort) Transcription Regulatory Region Post-translational modifications (NetNGlyc…) Gene Ontology Pathway …
microRNA测序(microRNA sequencing)
实 验 数据分析 序列预处理(质量控制) 已知microRNA丰度统计 未知microRNA预测及丰度统计 microRNA提取、两头加接头、 反转录、建库 (Solexa or SOLiD)
高通量测序服务
元基因组测序 (meta-genome sequencing)
Protein Annotation
Physical&Chemical Para (PI/MW,EXTCOEF) Domain Identify (HMMER,BLIMPS) Predicted Gene Or Gene Transmembrane (TMAP,TMHMM) Localization Sites (Psort) Transcription Regulatory Region Post-translational modifications (NetNGlyc…) Gene Ontology Pathway …
微生物基因发现要解决的问题
• 微生物基因组中 80%-90% 的序列参与编码
• 主要问题:如果有两个或更多重叠的阅读框,哪一 个是基因(假定只可能有一个) • 最可靠的方法 – 同源搜索 (使用 BLAST 或 FASTA等) • 主要困难:在无已知同源性信息的情况下寻找基因
预测软件 GetORF