第二代测序中的数据分析 基因组

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
prediction
2 第二代测序分析工具
• 超过 1000 种分析工具
– http://seqanswers.com/wiki/Software/list
• 常规分析 – calling, quality control, alignment/assembly, SNP/Indel discovery, SNP annotation
4.3 Solexa 数据 : SOAP2
4.4 Solid 数据 : BioScope
4.4 Solid 数据
4.4 Solid 数据
4.5 454 数据 : newbler
• RunMapping -o outputdir ref.fa 1.sff … • 454ReadStatus.txt
• ABI SOLiD
– 读长: 50bp – 格式: csfasta
• Roche GS FLX (454)
– 读长: ~400bp – 格式: sff/fasta
3.1 Solexa – fastq 格式
3.1 Solexa – fastq 格式
3.2 Solid – csfasta 格式
• Index reference sequences – 2bwt-builder ref.fa
• Mapping – single
soap -a <reads.fq> -D <ref.fa.index> -o <output> – pair end
soap -a <reads1.fq> -b <reads2.fq> -D <ref.fa.index> -o <PE_output> -2 <SE_output> -m <min_insert_size> -x <max_insert_size>
– bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln.sam
4.3 Solexa 数据 : SAM 格式
http://genome.sph.umich.edu/wiki/SAM
4.3 Solexa 数据 : SOAP2
4.6 SNP/INDEL Calling
• Samtools
– http://samtools.sourceforge.net/
– $ samtools mpileup -uf ref.fa aln1.bam aln2.bam | bcftools view -bvcg - > var.raw.bcf
– http://soap.genomics.org.cn/soapsnp.html
*Linux, 64bit CPU, 4G memory
4.3 Solexa 数据 : BWA
• Index reference sequences – bwa index -a is/bwtsw ref.fa
– is:
– http://www.broadinstitute.org/gatk/
5 de novo 常规分析
基因组 转录组
全基因组 / 外显子组测序
目标区域深度测序 De novo 测序 mRNA 测序 小 RNA 测序
SNP Small InDel
SNP annotation
SNP annotation Genome assembly Gene expression Annotation and target
3.3 fasta 格式
4 基因组常规分析
基因组 转录组
全基因组 / 外显子组测序
目标区域深度测序 De novo 测序 mRNA 测序 小 RNA 测序
SNP Small InDel
SNP annotation
SNP annotation Genome assembly Gene expression Annotation and target
第二代测序中的数据分析 ( 基因组 )
1 第二代测序分析类型
基因组 转录组
全基因组 / 外显子组测序
目标区域深度测序 De novo 测序 mRNA 测序 小 RNA 测序
SNP Small InDel
SNP annotation
SNP annotation Genome assembly Gene expression Annotation and target
• 高级分析 – functional polymorphism, disease/phenotype, genomic coordinate
2 第二代测序分析工具
3 第二代测序平台数据
• illumina Genome AnalyzerII (solexa)
– 读长: 80-120bp – 格式: fastq
– $ bcftools view var.raw.bcf | vcfutils.pl varFilter – D100 > var.flt.vcf
– The VCF format (Variant Call Format):
4.6 SNP/INDEL Calling
• GATK: Genome Analysis Toolkit
4.2 常规分析工具
4.3 Solexa 数据
• BWA
– http://bio-bwa.sourceforge.net/
• SAMtools
– http://samtools.sourceforge.net/
• wk.baidu.comOAP2
– http://soap.genomics.org.cn/
• SOAPsnp
< 2Gb
– bwtsw:
> 2Gb
• Mapping – bwa aln ref.fa short_read.fq > aln_sa.sai
• Output alignments in the SAM format – bwa samse ref.fa aln_sa.sai short_read.fq > aln.sam
prediction
4.1 常规分析流程
• Reads correction • Assembly
– short reads: Solexa – long reads: 3730, 454 reads – hybrid reads: short + long reads
• SNP/INDEL Calling
相关文档
最新文档